… создали сервис, который при звонке клиента по номеру его телефона автоматически открывает отчёт и показывает оператору всю историю покупок звонящего
Недельный отчёт открывается 30мин. А сколько времени открывается операционный при звонке клиента?
В своё время в похожем проекте приняли 10 секунд как максимально терпимое.
Недельные отрабатывали тоже по полчаса. Это всё было 11 лет назад. Вот интересно, что изменилось с тех пор.
геолокация по ip — это, безусловно, крутой инструмент. Только не нашёл в статье самого интересного — механизма, но он описан на сайте у maxmind.
Числа в IP-адресе разделены на две части: одна часть содержит идентификатор Вашей сети, а вторая часть содержит информацию о местоположении.
это утверждение не верно. По самому номеру невозможно определить местоположение и это — замечательное свойство интернета. Локацию определяют по косвенным параметрам.
Спасибо за замечание. По комментарию, безусловно, сложно судить. Хочу добавить.
— Первым в моём списке оказался стек технологий IBM cognos на базе данных оракла. Застал конец миграции ETL c Informatica на пакеты pl/SQL, т.к. первая перестала справляться. 4 года в области построения отчётов. У cognos сложновато с настройкой и управлением BI инфраструктуры.
— Следующим был стек от SAP и 6 лет с ним. Всё делали BO и BODI средствами. Когда вышел новый релиз без поддержки старого, мы встряли с нашими 4мя тысячами джобов. За год всё переделали на оракл пакеты, репортинг остался на SAP, позже его мигрировали в Tableau. sap тогда казался круче когноса.
— Потом достался BI от оракла и одно хранилище со стеком MS. Полгода ковырялись. Про ODI и OBIEE вообще не хочу писать, это каменный век. Всё это мигрировали в базу оракла и Tableau для репортов. Заодно все сервера перевели на линукс.
— Последние 2 года работа приносит удовольствие, потому что можно сосредоточиться на анализе данных, а не разбираться, почему программы живут своей жизнью. При этом хранилище побольше, чем были до этого: за ночь обрабатывается 10,5 миллиардов записей. Кубы (у Табло они называются экстрактами) тоже большие, но они полезны для аналитиков, чтобы оффлайн работать. Для регулярных отчётов технология кубов устарела, машины справляются если модель быстрая.
— Ещё используем knime, но не продуктивно, а для помощи в анализе, если нужно локально преобразовать данные.
При этом мне сложно представить как мои MS AS кубы на десятки Гб после процессинга запихнуть в Tableau
я бы попробовал «в лоб» решить: сохранить это дело в CSV и просто перетащить в Tableau desktop. Пробовал с одним миллиардом записей — работает, минут 15 думает и проглатывает. Можно упаковать в hyper, тогда файл будет раз в сто меньше и летать как эксель.
Миграция или рефакторинг — это, конечно, целая тема, отдельная.
Всё дело во времени. Эффективность работы с данными определяет успех затеи BI. Разница во времени реализации проекта различными программными продуктами составляет уже не разы, а порядки.
Если говорить о деталях, то в продуктах, описанных в статье, нужно гораздо меньше кликать. Миллион записей для человека — это очень много, но в современных системах их ещё больше и нужны адекватные инструменты, чтобы понять, что там происходит.
Если добавить факторы version control, code review, team collaboration, то бывшим гигантам нужно позволить уйти на покой.
Отличная статья, обзор современных и мощных инструментов работы с данными, без устаревших и убогих продуктов от sap, ibm и microsoft. Могу высказать мнение о Tableau, с которым активно работаю 2 года.
«В Tableau не предусмотрены version control, code review, team collaboration, как и нет продуманной среды разработки и тестирования»
— все объекты автоматически версионируются, всё на сервере можно откатить. Исходный код артефактов — XML, т.е. версионирование в github не проблема, что мы и делаем.
team collaboration — этого нет.
Но есть: — очень быстрая работа с большими данными, миллиард строк — не проблема, отображает быстрее, чем эксель свой миллион.
— полноценная система управления правами доступа.
— рассылка данных в форматах pdf, csv, картинки. При этом без костылей, всё красиво и ровно.
— создание не только дашбоардов, но и «data story», топ-менеджмент в восторге.
И ещё замечание
главная сложность, с которой сталкивается половина DS — это грязные данные [2]). Основной проблемой в этом случае, очевидно, будет трудоемкость и неэффективность использования времени аналитиков.
Всегда считал, что хороший аналитик делает именно эту работу: правила, как из грязных данных получить чистые. В грязных данных вся соль. И кто, как ни аналитик, найдёт логическую ошибку в SQL, ведь только он знает, что нужно получить на выходе.
GDPR помог изыскать 10 млрд евро с концернов, которым от этого стало не сильно хуже. Сама реализация отстала от своего времени лет на 10. В реальности от него больше вреда, чем пользы. Политики во всех странах одинаковые.
С приватностью мы имеем феномен. С одной стороны продаём себя с потрахами за пункты и скидку в магазине, у всех есть скидочная карта. С другой — орём, как сумасшедшие по поводу сохранённого айпи. Но нашу информацию нам же потом много раз продают.
К своему сожалению, как-то обнаружил, что в 2019 году на веб страницы и собственные домены люди больше не ходят, интернет с людьми принадлежит соц. сетям и поисковикам.
Но вот вконтакте сильно подотстал с технологиями.
"… так как текущий владелец подтвердил право доступа" — это он типа прислал смс с нового номера. Им бы этот номер на особый контроль взять, а не отписки писать.
Раздел «Теория Разумных Объяснений Дэвида Дойча» интересен. Насколько я понял, это анализ теорий с целью получить формулу, которая может помочь в процессе решения проблемы. Это полезно, т.к. представляет собой передачу опыта.
Скрам — это не только фреймворк для организации процесса. Где-то на хабре была уже ссылка на «the future of programming» youtu.be/ecIWPzGEbFc
на минуте 01:03:00 как раз про него. Т.е. час он рассказывал про исторические причины, приведшие к идее скрам.
И там же было, почему вопрос «что нужно работать?» превратился в «как нужно работать?»
Такой кружок определил моё хобби и повлиял на выбор проф. деятельности. Это хорошее дело.
Мы ходили с одноклассником туда. И в 93 году детей выгоняли. Думаю, они не изменились.
Помню, что было не понятно, почему выгоняют или кричат. Ну иногда шумновато становилось или кто-то сильно отвлекался.
Мне кажется, что уровень квалификации работы с детьми недооценен. Пункт про преподавателя важный. Опыт с детьми — это нужно, актуальность знаний о них не менее важна.
Ведь разный их возраст имеет свои психологические особенности.
Мне было не прикольно ходить одному, потому что друг спалил последний транзистор, его выгнали и он больше не приходил.
Не совсем понял, именно этот выбор представителей, т.к. Tableau дороговат в их нише и кто их всех туда поставил.
Но напишу про Tableau, т.к. спустя 10 лет интенсивной работы с продуктами BI от IBM, SAP и Oracle, возвращаться назад точно не буду.
Порог вхождения. Если знакомы с SAP или IBM Cognos, то 0 — всё тоже самое, только всё лишнее убрано.
Tableau cервер можно поставить и у себя, есть под win и linux. На Linux получается существенно производительней.
Отличается от ВСЕХ остальных подходов в моделировании. Tableau даёт строить только один контекст на базе фактовой таблицы, зато контексты(модели) строятся быстро. Вероятность ошибок в модели сильно уменьшается. Есть нюанс с обновлением моделей, но нужно просто чётко отладить процесс, чтобы не оставалось дохлых моделей на сервере. Можно откатить, на сервере всё версионируется.
Если модель в базе данных правильно организована, например, индексы, ссылающиеся поля одинаково названы, типы унифицированны, то в Tableau вы просто дважды кликаете и все связи строятся автоматически, названия колонок, типы полей. Потом не нужно тыщу раз кликать, как в других продуктах.
Проект и его артефакты создаются тоже в пределах контекста, как блокнот, куда вы пишите заметки. Деление в других продктах происходит по функиональному принципу, что при большом количестве проектов и артефактов требует гораздо больших человекозатрат.
Блокнот или книга очень удобны, если использовать экстракты (кубы по-старому). Позволяет работать без доступа к базе.
До сих пор не видел ни одного продукта, который так быстро работает и визуализирует большие данные. Вы создаёте экстракт данных на полмиллиарда записей и оно работает в разы быстрее excel-я с его возможным миллионом.
Такой возможности на лету подключить данные из всех возможных источников для исследования самих данных, ни у кого не видел.
Отправляет pdf, csv, картинки так, как вы нарисовали. Одна строчка кода на сервере и оно отправляется в красивом виде и сырые данные и любые картинки и пдф.
ETL у них — это побочный продукт, вообще весь ETL должен быть в виде SQL и заниматься им должна база данных, но это другая тема.
Цена Tableau может испугать, конечно, и все обучения дорогие, пот. учат делать вещи, которые дорого и вредно в BI делать.
Кароче, современный инструмент, современный подход к обработке больших данных. Экономит людей.
Мне кажется, что люди, занимающиеся сельским хозяйством, считать умеют очень хорошо. Стоимость трех человек с ноутбуком и рука робота будет примерно такой же, как армия желающих подработать на уборке урожая людей, умноженная на, скажем, на 50. А если эта штуковина сломается посреди поля в разгар урожая, то всё, каюк. Т.е. ещё полвека можно не париться, а алгоритм сбора корректировать путём инструктажа.
В описанном вами режиме пробовал работать пять лет. Усталость иногда наваливается — это да. Мешки под глазами, глаза красные, хочеться иногда поругаться. Пару дней поспать, на шашлычок с друзьями или на лодке погребсти — и снова погнал.
Работу менять при усталости или даже выгорании не обязательно, теряется ценный опыт, когда можно проследить жизненный цикл продуктов.
Один знакомый лет десять программировал, потом купил трактор такой, который лес режет, сделался ИПом. И компьютер кроме как для новостей больше не пользует. Вот это называется выгорел.
Можно ведь и не годовую, и не на месяц, а просто — эквивалентную усталости. У каждого ведь есть отпуск и каждый сам решает, когда он устал. А если в отпуске не хватает дней, то за счёт премии их количество увеличивается.
Недельный отчёт открывается 30мин. А сколько времени открывается операционный при звонке клиента?
В своё время в похожем проекте приняли 10 секунд как максимально терпимое.
Недельные отрабатывали тоже по полчаса. Это всё было 11 лет назад. Вот интересно, что изменилось с тех пор.
это утверждение не верно. По самому номеру невозможно определить местоположение и это — замечательное свойство интернета. Локацию определяют по косвенным параметрам.
— Первым в моём списке оказался стек технологий IBM cognos на базе данных оракла. Застал конец миграции ETL c Informatica на пакеты pl/SQL, т.к. первая перестала справляться. 4 года в области построения отчётов. У cognos сложновато с настройкой и управлением BI инфраструктуры.
— Следующим был стек от SAP и 6 лет с ним. Всё делали BO и BODI средствами. Когда вышел новый релиз без поддержки старого, мы встряли с нашими 4мя тысячами джобов. За год всё переделали на оракл пакеты, репортинг остался на SAP, позже его мигрировали в Tableau. sap тогда казался круче когноса.
— Потом достался BI от оракла и одно хранилище со стеком MS. Полгода ковырялись. Про ODI и OBIEE вообще не хочу писать, это каменный век. Всё это мигрировали в базу оракла и Tableau для репортов. Заодно все сервера перевели на линукс.
— Последние 2 года работа приносит удовольствие, потому что можно сосредоточиться на анализе данных, а не разбираться, почему программы живут своей жизнью. При этом хранилище побольше, чем были до этого: за ночь обрабатывается 10,5 миллиардов записей. Кубы (у Табло они называются экстрактами) тоже большие, но они полезны для аналитиков, чтобы оффлайн работать. Для регулярных отчётов технология кубов устарела, машины справляются если модель быстрая.
— Ещё используем knime, но не продуктивно, а для помощи в анализе, если нужно локально преобразовать данные.
я бы попробовал «в лоб» решить: сохранить это дело в CSV и просто перетащить в Tableau desktop. Пробовал с одним миллиардом записей — работает, минут 15 думает и проглатывает. Можно упаковать в hyper, тогда файл будет раз в сто меньше и летать как эксель.
Миграция или рефакторинг — это, конечно, целая тема, отдельная.
Если говорить о деталях, то в продуктах, описанных в статье, нужно гораздо меньше кликать. Миллион записей для человека — это очень много, но в современных системах их ещё больше и нужны адекватные инструменты, чтобы понять, что там происходит.
Если добавить факторы version control, code review, team collaboration, то бывшим гигантам нужно позволить уйти на покой.
— все объекты автоматически версионируются, всё на сервере можно откатить. Исходный код артефактов — XML, т.е. версионирование в github не проблема, что мы и делаем.
team collaboration — этого нет.
Но есть: — очень быстрая работа с большими данными, миллиард строк — не проблема, отображает быстрее, чем эксель свой миллион.
— полноценная система управления правами доступа.
— рассылка данных в форматах pdf, csv, картинки. При этом без костылей, всё красиво и ровно.
— создание не только дашбоардов, но и «data story», топ-менеджмент в восторге.
И ещё замечание
Всегда считал, что хороший аналитик делает именно эту работу: правила, как из грязных данных получить чистые. В грязных данных вся соль. И кто, как ни аналитик, найдёт логическую ошибку в SQL, ведь только он знает, что нужно получить на выходе.
С приватностью мы имеем феномен. С одной стороны продаём себя с потрахами за пункты и скидку в магазине, у всех есть скидочная карта. С другой — орём, как сумасшедшие по поводу сохранённого айпи. Но нашу информацию нам же потом много раз продают.
Но вот вконтакте сильно подотстал с технологиями.
"… так как текущий владелец подтвердил право доступа" — это он типа прислал смс с нового номера. Им бы этот номер на особый контроль взять, а не отписки писать.
Скрам — это не только фреймворк для организации процесса. Где-то на хабре была уже ссылка на «the future of programming» youtu.be/ecIWPzGEbFc
на минуте 01:03:00 как раз про него. Т.е. час он рассказывал про исторические причины, приведшие к идее скрам.
И там же было, почему вопрос «что нужно работать?» превратился в «как нужно работать?»
Мы ходили с одноклассником туда. И в 93 году детей выгоняли. Думаю, они не изменились.
Помню, что было не понятно, почему выгоняют или кричат. Ну иногда шумновато становилось или кто-то сильно отвлекался.
Мне кажется, что уровень квалификации работы с детьми недооценен. Пункт про преподавателя важный. Опыт с детьми — это нужно, актуальность знаний о них не менее важна.
Ведь разный их возраст имеет свои психологические особенности.
Мне было не прикольно ходить одному, потому что друг спалил последний транзистор, его выгнали и он больше не приходил.
Но напишу про Tableau, т.к. спустя 10 лет интенсивной работы с продуктами BI от IBM, SAP и Oracle, возвращаться назад точно не буду.
Порог вхождения. Если знакомы с SAP или IBM Cognos, то 0 — всё тоже самое, только всё лишнее убрано.
Tableau cервер можно поставить и у себя, есть под win и linux. На Linux получается существенно производительней.
Отличается от ВСЕХ остальных подходов в моделировании. Tableau даёт строить только один контекст на базе фактовой таблицы, зато контексты(модели) строятся быстро. Вероятность ошибок в модели сильно уменьшается. Есть нюанс с обновлением моделей, но нужно просто чётко отладить процесс, чтобы не оставалось дохлых моделей на сервере. Можно откатить, на сервере всё версионируется.
Если модель в базе данных правильно организована, например, индексы, ссылающиеся поля одинаково названы, типы унифицированны, то в Tableau вы просто дважды кликаете и все связи строятся автоматически, названия колонок, типы полей. Потом не нужно тыщу раз кликать, как в других продуктах.
Проект и его артефакты создаются тоже в пределах контекста, как блокнот, куда вы пишите заметки. Деление в других продктах происходит по функиональному принципу, что при большом количестве проектов и артефактов требует гораздо больших человекозатрат.
Блокнот или книга очень удобны, если использовать экстракты (кубы по-старому). Позволяет работать без доступа к базе.
До сих пор не видел ни одного продукта, который так быстро работает и визуализирует большие данные. Вы создаёте экстракт данных на полмиллиарда записей и оно работает в разы быстрее excel-я с его возможным миллионом.
Такой возможности на лету подключить данные из всех возможных источников для исследования самих данных, ни у кого не видел.
Отправляет pdf, csv, картинки так, как вы нарисовали. Одна строчка кода на сервере и оно отправляется в красивом виде и сырые данные и любые картинки и пдф.
ETL у них — это побочный продукт, вообще весь ETL должен быть в виде SQL и заниматься им должна база данных, но это другая тема.
Цена Tableau может испугать, конечно, и все обучения дорогие, пот. учат делать вещи, которые дорого и вредно в BI делать.
Кароче, современный инструмент, современный подход к обработке больших данных. Экономит людей.
Работу менять при усталости или даже выгорании не обязательно, теряется ценный опыт, когда можно проследить жизненный цикл продуктов.
Один знакомый лет десять программировал, потом купил трактор такой, который лес режет, сделался ИПом. И компьютер кроме как для новостей больше не пользует. Вот это называется выгорел.