bashnick Jul 22 2019 at 14:56

Семь раз отмерь, один раз внедри BI инструмент

11 min

29K

Open Data Science corporate blogData Mining*Big Data*Data visualization*Software

+40

Comments 20

McKinseyBA Jul 22 2019 at 18:20

Спасибо за статью, т.к. на Хабре похожие темы, к сожалению, редкость. Но:

Tableau, Looker, Periscope, Mode

1. Только из Вашей статьи узнал о существовании последних трех:-) 5-минутный гуглинг не выявил внедрений в России. Да и странно сравнивать лидера Tableau c решениями не попадающими в упоминаемый квадрант Gartner даже в разряд аутсайдеров. Полезнее было бы сравнить Tableau c Qlik, Power BI, SAP (BO и т.д.) — 4 лидирующих платформы по внедрениям в РФ (статья на русском ведь ориентирована на российский/СНГ рынок преимущественно?).

2. Выбор ETL(ELT) — инструментов также вызывает вопросы. А Informatica, Talend и еще 3-4 такого же уровня крутых инструментов? Вероятность столкнутся с ними в корпоративных решениях ничуть не меньше, чем в упомянутых выше.

3. Упоминая экзотику для мира BI — In-Memory DB, можно было бы и DB на GPU вспомнить. Единственная выгода у них как раз в математических операциях в задачах со сверточными сетями и прочим DL, что близко тематике ODS. Однако тут необходимо приводить примеры. Я вот сходу не назову ни одного приличного DWH на этих технологиях. Поправьте меня пожалуйста пруфом. Под приличным подразумеваю хотя бы >10Tb данных у продуктовой компании.

И последнее —

по опросу Kaggle, главная сложность, с которой сталкивается половина DS — это грязные данные [2]). Основной проблемой в этом случае, очевидно, будет трудоемкость и неэффективность использования времени аналитиков. Вместо создания полноценного продукта, аналитики/DS будут все свое время готовить показатели, считать метрики, сверять расхождения в цифрах, искать ошибки в SQL-коде и заниматься прочей бесполезной деятельностью.

Тут и до фразы «девопсы/тестировщики = недоразработчики» недалеко. Давайте уважать труд других. Похожими заявлениями Вы создаете ложные представления у джуниоров (статья ведь для них?). Я как Data Engineer, готовящий данные для своего ML Архитектора получаю не меньше его и раза в 2 больше ~~юных~~ middle ds'ников. Дабы не заниматься «бесполезной деятельностью» устраивайтесь на работу в компании где разделяют DS и DE и будет нам всем счастье.

bashnick Jul 22 2019 at 22:18

McKinseyBA, спасибо за развернутый комментарий, постараюсь на что-то ответить.
1. Статья описывает опыт внедрения BI в нашей компании. На момент тестирования мы исключили Power BI и QlikView из перечня по нескольким причинам включая негативный предыдущий опыт работы с некоторыми из них. Если в вкратце, то Power BI, SAP, как мне кажется, больше подходят как enterprise решения, они не очень гибкие и у них довольно крутая кривая обучения для бизнес пользователей. Qlik, на мой взгляд, довольно олд скульная система слабо подходящая для Self Service — если ты хочешь что-то создавать в ней, тебе надо хорошо владеть SQL (а это не про бизнес-пользователей). И в целом, как раз про эти 4 инструмента довольно много уже всего написано, много не добавишь :)
2. ETL — это отдельная история, не без приключений :) постараюсь собраться и описать более подробно как у нас обстоят дела.
3. Не прорабатывал вопрос, но спасибо за идею, изучу.
4. Здесь я не хотел никого обидеть, основная мысль заключалась в том, что хочется по-возможности автоматизировать рутинную работу с данными и отчетность, тем самым повысив эффективность команды.

McKinseyBA Jul 22 2019 at 23:29

Про ETL будет очень интересно, как и про DWH.

3. Не прорабатывал вопрос, но спасибо за идею, изучу.

Не стоит) Имел неудовольствие общаться с сейлзами, которые предлагали заменить божественную Вертику своей GPU поделкой. В-общем, этап «технического собеседования» они не прошли. Да и продукт очень узкоспециализированный.

BigD Jul 23 2019 at 00:48

Qlik Sense — вполне себе подходит под Self Service IMHO. Ну и про Power BI немного странный отзыв

nikolayv81 Jul 24 2019 at 18:57

" если ты хочешь что-то создавать в ней, тебе надо хорошо владеть SQL (а это не про бизнес-пользователей)."
На мой взгляд очень частое заблуждение, я бы ещё понял если бы было сказано что "у них недостаточно времени на это"/"их время слишком дорого", с другой стороны когда ты вечером в BI живёшь сохранить фильтр, а вернувшись утром видишь песочные часы(понятно что какой-то сбой, но) задумываешься о том что за это время среднестатистический пользователь мог бы изучить азы SQL изучить :)

dmitrybelsky Jul 23 2019 at 15:27

можно было бы и DB на GPU вспомнить

Кстати, есть вполне российское решение Polymatica, которое на GPU работает и даже с рядом кейсов. www.polymatica.ru/case-studies

martins0n Jul 22 2019 at 21:38

Redash

Есть коннекторы к основным БД, набор графиков как в plotly js, есть docker образ и репозиторий на github. Написан на python — можно допиливать напильником при желании.

Zeppelin

Можно использовать js и питон для визуализации и обработки данных. Можно использовать встроенные готовые графики.

metabase

Не работал, но там вроде даже аномалии на временных рядах можно детектировать из коробки.

Какое ваше мнение об этих инструментах?

x67 Jul 23 2019 at 10:04

Redash хорош тем, что использует в основе питон, а значит, скорее всего может быть допилен без больших расходов при острой необходимости. Но выглядит достаточно сырым. Хотя и имеет достаточно много типов даже непопулярных визуализаций.
Metabase. Ох уж этот метабейз… прекрасный иопенсурсный продукт, но не обманитесь первыми впечатлениями. Если бизнес чуточку сложнее, чем купи-продай, то вы обязательно наткнетесь на несколько капканов, пару раз выстрелите себе в ногу и разобъетесь об его опенсурсность. У разработчиков свое видение на некоторые вопросы и оно может кардинально различаться с вашим. И судя по их страничке на гитхаб, некоторые вопросы(если ваша точка зрения близка разработчикам) могут решаться годами. Имхо идеальный вариант для небольших компаний, которые могут даже не иметь в штате аналитика и людей знающих sql, или для какого нибудь корпоративного монстра, имеющего раздутый штат java разработчиков, готового взять метабейс под свое крыло. И в отличие от редаш, метабейс все таки более продуман и от полноценного продукта отличается только наличием глюков и багов и отсутствием некоторых возможностей, из-за чего приходится использовать древние техники КунгФу в sql, иногда попутно поднимая парочку микросервисов в качестве спутников.
А самым перспективным open source решением имхо является superset — детище убера и эирбнб емнип, взятый под крыло apache. Если метабейс — BI through sql и даже очень неплохой BI without sql, то superset лучше раскроет себя, при использовании sql+питон. Собственно на него я смотрю уже месяца два и думаю как бы подробнее изучить подводные камни и безболезненнее мигрировать с metabase. Есть несколько статей с упоминанием суперсет, но очень не хватает обзорной статьи про него от тех, кто остановился на нем и успешно использует. Возможно стоит и мне написать про metabase.
Кстати, немножко по другой теме, но у апач есть прекрасный эирфлоу, с которым выбор суперсета выглядит еще более естественным. Все эти продукты как нельзя лучше раскрывают сильные и слабые стороны open-source для бизнеса.

am-habr Jul 22 2019 at 21:40

Отличная статья, обзор современных и мощных инструментов работы с данными, без устаревших и убогих продуктов от sap, ibm и microsoft. Могу высказать мнение о Tableau, с которым активно работаю 2 года.

«В Tableau не предусмотрены version control, code review, team collaboration, как и нет продуманной среды разработки и тестирования»

— все объекты автоматически версионируются, всё на сервере можно откатить. Исходный код артефактов — XML, т.е. версионирование в github не проблема, что мы и делаем.
team collaboration — этого нет.
Но есть: — очень быстрая работа с большими данными, миллиард строк — не проблема, отображает быстрее, чем эксель свой миллион.
— полноценная система управления правами доступа.
— рассылка данных в форматах pdf, csv, картинки. При этом без костылей, всё красиво и ровно.
— создание не только дашбоардов, но и «data story», топ-менеджмент в восторге.
И ещё замечание

главная сложность, с которой сталкивается половина DS — это грязные данные [2]). Основной проблемой в этом случае, очевидно, будет трудоемкость и неэффективность использования времени аналитиков.

Всегда считал, что хороший аналитик делает именно эту работу: правила, как из грязных данных получить чистые. В грязных данных вся соль. И кто, как ни аналитик, найдёт логическую ошибку в SQL, ведь только он знает, что нужно получить на выходе.

bashnick Jul 22 2019 at 22:37

Спасибо, за комментарий. Да, Tableau мне очень понравился с точки зрения скорости работы с большими массивами данных + хорошая визуализация — этого не отнять.
По поводу грязных данных, все верно, добавлю только, что мы с одной стороны пытаемся весь процессинг и очистку данных убрать в ETL, а с другой построить единую для всех модель данных в Looker. Таким образом все работают с одинаково рассчитанными метриками и минимизируется риск ошибки в коде, как в ситуации с отдельным скриптом для каждой агрегации данных.

Ivan22 Aug 2 2019 at 15:07

модель данных в лукере? Почему не в DWH ???
Репортинг использует уже готовую модель данных. Она независима от него.

BigD Jul 23 2019 at 00:46

Это что это у MS устаревшее?

am-habr Jul 23 2019 at 09:57

Всё дело во времени. Эффективность работы с данными определяет успех затеи BI. Разница во времени реализации проекта различными программными продуктами составляет уже не разы, а порядки.
Если говорить о деталях, то в продуктах, описанных в статье, нужно гораздо меньше кликать. Миллион записей для человека — это очень много, но в современных системах их ещё больше и нужны адекватные инструменты, чтобы понять, что там происходит.
Если добавить факторы version control, code review, team collaboration, то бывшим гигантам нужно позволить уйти на покой.

McKinseyBA Jul 23 2019 at 12:45

Судя по Вашим комментариям, Вы кроме как с Tableau ни с чем не имели «плотного общения». Поэтому видите киллерфичи там, где их нет.

version control, code review, team collaboration

Я не пользуюсь ничем из этого в явном виде. При этом мне сложно представить как мои MS AS кубы на десятки Гб после процессинга запихнуть в Tableau без 3-5 лет рефакторинга. Да и сложно представить чтобы 4-х нодный кластер не лег при первом же обращении пары десятков аналитиков и сотни простых юзеров. MS AS же у меня на 1 железном mid-level сервере. И да — лицензии MS AS 2010 стоят 0.

Каждый инструмент хорош для своих целей. И даже богомерзкий SAP BO vs пока не готовы полностью списать и уйти на Tableau.

am-habr Jul 23 2019 at 14:07

Спасибо за замечание. По комментарию, безусловно, сложно судить. Хочу добавить.

— Первым в моём списке оказался стек технологий IBM cognos на базе данных оракла. Застал конец миграции ETL c Informatica на пакеты pl/SQL, т.к. первая перестала справляться. 4 года в области построения отчётов. У cognos сложновато с настройкой и управлением BI инфраструктуры.

— Следующим был стек от SAP и 6 лет с ним. Всё делали BO и BODI средствами. Когда вышел новый релиз без поддержки старого, мы встряли с нашими 4мя тысячами джобов. За год всё переделали на оракл пакеты, репортинг остался на SAP, позже его мигрировали в Tableau. sap тогда казался круче когноса.

— Потом достался BI от оракла и одно хранилище со стеком MS. Полгода ковырялись. Про ODI и OBIEE вообще не хочу писать, это каменный век. Всё это мигрировали в базу оракла и Tableau для репортов. Заодно все сервера перевели на линукс.

— Последние 2 года работа приносит удовольствие, потому что можно сосредоточиться на анализе данных, а не разбираться, почему программы живут своей жизнью. При этом хранилище побольше, чем были до этого: за ночь обрабатывается 10,5 миллиардов записей. Кубы (у Табло они называются экстрактами) тоже большие, но они полезны для аналитиков, чтобы оффлайн работать. Для регулярных отчётов технология кубов устарела, машины справляются если модель быстрая.
— Ещё используем knime, но не продуктивно, а для помощи в анализе, если нужно локально преобразовать данные.

При этом мне сложно представить как мои MS AS кубы на десятки Гб после процессинга запихнуть в Tableau

я бы попробовал «в лоб» решить: сохранить это дело в CSV и просто перетащить в Tableau desktop. Пробовал с одним миллиардом записей — работает, минут 15 думает и проглатывает. Можно упаковать в hyper, тогда файл будет раз в сто меньше и летать как эксель.
Миграция или рефакторинг — это, конечно, целая тема, отдельная.

Here_and_Now Jul 23 2019 at 15:22

Попробуйте через Tableau подключиться к MS AS. Они вроде поддерживают этот коннектор

ChePeter Jul 23 2019 at 10:28

Очень сомнительное заявление

Поэтому основным критерием выбора аналитической системы должна быть возможность максимально разгрузить аналитиков от ad hoc-задач и текучки.

Явно не понравится владельцам бизнеса. Они обычно понимают, что значение ad hoc задач нельзя приуменьшать.

WizardryIB Jul 23 2019 at 11:43

Почему никто не упомянул knime analytics platform или rapidminer?

McKinseyBA Jul 23 2019 at 12:48

Это платформы для автоматизации ML задач. К классическому BI они отношения не имеют.

jularina Aug 14 2019 at 18:59

Николай, спасибо большое за статью очень интересно! Сама учусь на аналитика данных, и ваша статья очень полезна!!!