Comments 41
Подскажите пожалуйста, существуют ли разумные решения для встраивания self-аналитики к себе на сайт с неограниченным (очень большим) количеством для не очень квалифицированных пользователей. Интересует в частности pivot-таблицы и графики по ним. При этом подготовкой и загрузкой данных займутся специально обученные специалисты.
Tableau и Power BI поддерживают LIVE соединение к ряду источников, в отличие от Qlik.
А Direct Query в Qlik?
когда речь идет о больших данных работать с LIVE соединением становится просто невозможно. А BI в большинстве случаев и нужно для больших данных.
Скорее как раз наоборот, хотя и понятно, что вы имели ввиду. С производительностью в LIVE/DIRECT всё будет хорошо при условии, что запросы идут в хранилище на аналитической БД с «правильной» моделью данных.
Я в сфере новичок, и не уверен, что эти продукты вписываются сюда, но я с их помощью собираю статистику с серверов и рисую вроде неплохие репорты (особенно с ggplot2).
Будет интересно выслушать мнение профессионалов о них.
Касательно глобально других систем — безусловно их огромное множество, платных/бесплатных. Мы для себя определили, что нам ближе платные. И этому есть экономическое обоснование — если у компании нет денег на BI-платформу, то скорее всего они себе не позволят нужную компетенцию и на разработку или будут стараться неоправданно экономить.
Я стараюсь минимизировать риски, что изучу какую-то платформу, а её свернут… в этом случае монетизация моих знаний становится под вопросом.
Касательно силы визуализации в R - немного спорно =) Возможно не так понимаю Вашу мысль? Имеете в виду базово, без ggplot2 ?
https://www.business-science.io/code-tools/2022/03/30/how-i-analyze-100-ggplots-at-once.html
https://rud.is/b/2022/04/03/turning-ggplot2-into-a-pos-point-of-sale-system/
Для примера видов визуализации в R только сегодня обсуждаемых в общем ТГ канале =)
Разве это не BI решение?
Но не видел ни одного решения, где было бы чуть больше чем два источника данных, и отсутствовал бы толстый слой ETL. И собственно говоря он забирает на себя большую часть сложности по получению готовых данных, на основе которых во всю проявляют себя все современные BI-решения.
Посыл о чем — бизнесу часто продают BI как решение проблем получения отчетов. Тогда как BI — это только вершина айсберга. Под водой существенный кусок сложности получения отчетов — ETL.
— Стоимость лицензий
— Особенности платформы, которые будут выливаться в человеко-часы аналитика/программиста (доп. затраты)
— Требования и стоимость к хранилищу данных, его расположению
— Необходимость преобразования данных, их стыковки при использовании разных источников
— Разработка самого отчёта
Мы отдельно ещё опишем статью из чего складывается стоимость BI-внедрения.
На любом графике я вынужден менять цвет на свой фирменный, корпоративный и удивляюсь стандартной расцветке.
Начиная с какой-то из осенних версий Power BI можно делать свои цветовые схемы (json). И не нужно мучиться с постоянным изменением цвета.
А вообще спасибо за статью, заинтересовалась Qlik-ом. Пыталась научиться им пользоваться пару лет назад, не зашло. Откровенно говоря, посчитала его страшно уродливым (да простят меня разработчики!), но вы очень вкусно про него рассказали. Буду пробовать :)
Интересно узнать Ваше профессиональное мнение о платных Sisense и inetSoft и open-source решениях Apache Superset и Kibana.
Владимир, вы можете, немного раскрыть вопрос стоимости владения Qlik, из сайта она не очевидна.
— Есть enterprise решения (коробка и облако*)
*Сейчас есть варианты, как совместить преимущества облачных решений (преобразования капитальных вложений) с надёжностью (размещение ПО у клиента), которое может дать коробка.
— Есть облачные решения с подпиской (а там ведь бывают ещё разные типы пользователей, тоже нужно учитывать)
Статью выпустим на следующей неделе. Если у вас вопрос горящий, нужно согласовывать, то можем в индивидуальном общении проговорить все моменты. Моя почта LVV@analyticsgroup.ru
- Power BI можно использовать на своих серверах не только в пакете Premium, но и имея лицензии SQL Server Enterprise с подпиской Software Assurance.
- У Power BI как у относительно молодой системы в on premise режиме есть ограничения на размер отчета в 2GB, что ограничивает возможности использования. При работе в режиме DirectQuery есть ограничение на возвращаемое количество строк в 1 миллион.
- Вы никак не оценили возможность работы с источником данных в режиме live, хотя есть случаи когда это необходимо. Например, нужна оперативная отчетность или данных очень много (hadoop, clickhouse, etc) и нет возможности загрузить все в память
И еще вопрос автору: как Qlik позволяет выкрутиться при встраивании отчетов во внешние системы? Не нужно приобретать дополнительные лицензии?
— По времени использования всеми вашими посетителями (Купили N пакетов по 1000 минут, и пусть хоть один пользователь или пол мира сидит в вашей аналитике)
— Лицензии не привязанные к конкретному посетителю (есть допустим 100 бизнес-пользователей, но вы понимание, что они у вас раскиданы по всей России, и одновременно сидит только 10 человек, соответственно 10 лицензий могут закрыть эту задачу)
— Или вообще лицензии с привязкой не к пользователями и времени, а к ядрам. Платите за ядра, а сколько будет пользоваться людей и сколько по времени — вам всё равно.
Кто из них позволяет открыть Dashboard для вывода на большой монитор или телевизор на весь экран, чтобы данные в режиме онлайн отображались и при изменении в источнике графики перерисовывались?
Например как в SAP Xcelsius, если кто с ним работал.
Хочу также заметить что в Power BI существует функция импорта цветовой темы (через JSON), которая меняет дефольтные цвета на желаемый. Импортировать JSON нужно будет для каждого файла отдельно, зато не нужно будет менять все с нуля, если есть понятие «корпоративные цвета».
Но напишу про Tableau, т.к. спустя 10 лет интенсивной работы с продуктами BI от IBM, SAP и Oracle, возвращаться назад точно не буду.
Порог вхождения. Если знакомы с SAP или IBM Cognos, то 0 — всё тоже самое, только всё лишнее убрано.
Tableau cервер можно поставить и у себя, есть под win и linux. На Linux получается существенно производительней.
Отличается от ВСЕХ остальных подходов в моделировании. Tableau даёт строить только один контекст на базе фактовой таблицы, зато контексты(модели) строятся быстро. Вероятность ошибок в модели сильно уменьшается. Есть нюанс с обновлением моделей, но нужно просто чётко отладить процесс, чтобы не оставалось дохлых моделей на сервере. Можно откатить, на сервере всё версионируется.
Если модель в базе данных правильно организована, например, индексы, ссылающиеся поля одинаково названы, типы унифицированны, то в Tableau вы просто дважды кликаете и все связи строятся автоматически, названия колонок, типы полей. Потом не нужно тыщу раз кликать, как в других продуктах.
Проект и его артефакты создаются тоже в пределах контекста, как блокнот, куда вы пишите заметки. Деление в других продктах происходит по функиональному принципу, что при большом количестве проектов и артефактов требует гораздо больших человекозатрат.
Блокнот или книга очень удобны, если использовать экстракты (кубы по-старому). Позволяет работать без доступа к базе.
До сих пор не видел ни одного продукта, который так быстро работает и визуализирует большие данные. Вы создаёте экстракт данных на полмиллиарда записей и оно работает в разы быстрее excel-я с его возможным миллионом.
Такой возможности на лету подключить данные из всех возможных источников для исследования самих данных, ни у кого не видел.
Отправляет pdf, csv, картинки так, как вы нарисовали. Одна строчка кода на сервере и оно отправляется в красивом виде и сырые данные и любые картинки и пдф.
ETL у них — это побочный продукт, вообще весь ETL должен быть в виде SQL и заниматься им должна база данных, но это другая тема.
Цена Tableau может испугать, конечно, и все обучения дорогие, пот. учат делать вещи, которые дорого и вредно в BI делать.
Кароче, современный инструмент, современный подход к обработке больших данных. Экономит людей.
Благодарю за статью!
В связи с последними событиями, возможно было бы не лишним упомянуть что либо из отечественного, по типу яндекс ленс ? (просто предложение)
Отдельно хотелось бы уточнить, сталкивались ли с Shiny в своей работе? Могли бы сравнить ее с другими bi решениями?
Добрый день! Рад, что Вам статья понравилась.
Данную статью мы писали 3 года назад, но за это время лидеры квадрата Гартнера не поменялись. В то же время мы наблюдаем как, в силу давления, Qlik, PowerBI, Tableau ограничивает поставки в Россию. Это приводит к "серым" схемам приобретения лицензий и потери данными решениями рынка, который они много лет строили. Это конечно печально. Думаю местные и опенсоурс решения сейчас будут особенно востребованы на российском рынке.
Мы не внедряли ранее решение YandexDataLens. Наши специалисты только поверхностно знакомились с ним. Также не могу ничего сказать про Shiny. Но последние полтора года мы очень активно работали с алгоритмами обработки больших данных, опенсоурсной библиотекой D3 и взаимодействием этого решения с ведущими BI платформами. Мы добились существенного результата. Возможно в будущем мы опишем этот кейс в виде статьи.
Технические отличия BI систем (Power BI, Qlik Sense, Tableau)