Comments 19
Вы начинаете с объяснения что такое "Open Source", может лучше было начать с "BI"? А в целом спасибо, было интересно!
Yandex DataLens будет интересен тем компаниям, которые ищут простой и удобный Self-Service инструмент для широкой аудитории пользователей
В Open Source версии DataLens мультиюзерность и, как следствие, настройка ролевой модели доступа пока не доступна.
Как это "подходит компаниям", когда нет мнопользовательского доступа и разделения видимости данных? По-моему, совсем не подходит.
Формулировка противоречивая, согласна. На данный момент "из коробки" Open-Source версию DataLens нельзя использовать для корпоративного применения. Но та же Cloud версия DataLens имеет и мультиюзерность и настройку ролевой модели доступа. И она также бесплатна. Единcтвенное отличие - нельзя развернуть On-Premise, только в облаке.
Второй вариант - можно поискать в чате DataLens, на вкладке Open Source - там умельцы находят способы настроить авторизацию, например через nginx.
Ну и третий вариант - насколько я знаю, настройка авторизации и ролей - первый приоритет у команды DataLens, как они сами пишут в анонсе выхода в Open Source - они заложили в код некие "точки расширения", чтобы в будущем было проще доработать и добавить эту автоматизацию. Будем надеяться, что начале 24 года появится.
Но та же Cloud версия DataLens имеет и мультиюзерность и настройку ролевой модели доступа. И она также бесплатна. Единcтвенное отличие - нельзя развернуть On-Premise, только в облаке.
Но тема статьи об опенсорс решениях, а предложенное решение выходит за рамки. В том смысле, что врятли возможно посмотреть исходники, работающие непосредственно в облаке, нельзя их отлаживать, нельзя изменять.
там умельцы находят способы настроить авторизацию, например через nginx
Не сомневаюсь, что это возможно, но и толку от такого не много. Это скорее от безысходности:
во-первых, очень велик шанс оставить дырку безопасности при попытке описать все возможные виды url (а уж если пользователь сам может короткие url генерить - вообще кошмар)
во-вторых, не всегда из url очевидно, к каким объектам будет доступ => сложно их переложить на правила авторизации
Путем перебора, проб и ошибок, несколько большего количества BI платформ, наша компания остановила свой выбор, именно на Superset. Критерии выбора были идентичны тем, что описаны в материале. Единственное, что выводы при оценке критериев были более категоричны и безапелляционны, но это объяснимо разными целями. Ограниченный набор инструментов для визуализации, отсутствие настройки распределенного доступа, лишает Data Lens и Metabase шансов на использование.
Было бы очень интересно провести нагрузочное тестирование на одном наборе данных с одинаковыми отчётами вышеперечисленных платформ.
Учитывая, что у всех 3 систем есть только 1 способ взаимодействия с данными - live-подключение к БД (нет импорта и работы с данными на внутреннем движке системы), то предполагаю, что результаты нагрузочного тестирования будут максимально похожи с различием, разве что, в оптимальности генерации динамического SQL. Но это может внести какой-то вклад только на очень сложных запросах. А для большинства среднестатистических аггрегаций и вычислений, при условии использования одинаковой БД, производительность должна быть примерно одинаковая.
Настя, а Grafana не рассматривали, а почему?
Grafana - это система немного другого класса. Её и не позиционируют как Self Service BI-платформу. Ее основное применение - ИТ-мониторинг. Да, технически, дашборды тоже можно делать, но чаще всего для создания дашбордов используют другие системы - как раз те, что в обзоре).
Кроме того, так как Grafana и платформы из обзора ориентированы на разные задачи, то и критерии сравнения для них будут отличаться. К примеру, для того, чтобы добавить интерактивный функционал, описанный в статье, в Графане скорее всего придется дописывать плагины или делать кастомные доработки на JS
Спасибо за ответ) По-моему субъективному мнению, то что Графана исключительно для ИТ-мониторинга, больше стереотип.
Интерактивность, например, добавляется с помощью уже допиленных плагинов и простых SQL запросов, в случае использования Postgres. Инструмент возможно немного сложнее, однако дает много возможностей для визуализаций.
Используем Superset, работает хорошо. На одной странице 6 графиков, с общим фильтром на всех. Сделал 2 разных запроса на все 6 графиков, т.е. 1 запрос sql отображает 5 графиков в разном виде.
Надо было написать в конце вывод: Superset лучше всех :-)
Был бы интересен обзор коммерческих BI систем
Мы как раз год назад такой обзор выпускали. Конечно, за год ситуация немного изменилась, но не кардинально. Так что обзор еще актуален) + по возможности стараемся обновлять обзор в течение года
Я бы еще добавил в статью, что в DataLens крайне ограниченный набор коннекторов. Это может стать неприятным сюрпризом (например, для малый организаций будет важен импорт из csv).
Сравнение Open Source BI-платформ