Обновить
45.19

Визуализация данных *

Облекаем данные в красивую оболочку

Сначала показывать
Порог рейтинга
Уровень сложности

Obsidian: все что нужно знать о Callout

Уровень сложностиПростой
Время на прочтение13 мин
Охват и читатели18K

В этой статье я подробно расскажу о возможностях использования Callout в Obsidian, покажу существующие решения, а также объясню, как создавать свои собственные, индивидуальные типы Callout-блоков.

Рассмотрим при чем здесь цитаты (Blackquotes).

Дополнительно поделюсь полезными надстройками и шаблонами

Читать далее

Чужое открытое ПО внутри BI-систем: проблемы лицензирования, о которых не все задумываются

Время на прочтение5 мин
Охват и читатели1K

Для быстрого создания какого-то продукта часто используют различные open source решения. Но применение открытого ПО несёт в себе определённые риски: от финансовых до юридических. Потому что разработка на базе ПО с открытым исходным кодом не означает бесконтрольное использование созданных на этом коде продуктов из-за действия соответствующей лицензии: BSD, GNU, MIT, LGPL, AGPL, BSPL, SSPL, Demoware License, Apache License 2.0, RSAL и других. А в соответствии со статьями 1252 и 1301 ГК РФ иски о нарушении лицензионного права предъявляются к юридическому лицу, использующему указанное программное обеспечение. 

Меня зовут Алексей Розанов, я руководитель пресейл-направления и работы с партнёрами ГК Luxms, и в этой статье я хочу рассмотреть несколько примеров использования open source решений на рынке BI-аналитики и подсветить юридические риски для компаний, которые используют BI-системы на их основе.

Читать далее

Неизвестный библейский алгоритм кластеризации

Уровень сложностиСредний
Время на прочтение6 мин
Охват и читатели6.9K

Времена, когда горящий куст мог принести озарение, давно прошли. Примитивный опыт уже не может стать источником открытий. А всё потому, что он обобщён и впитан в культуру человечества. И чтобы подключиться к мудрости предков нужно опереться на философию. В этой статье мы познакомимся с новым алгоритмом кластеризации и поверхностно затронем некоторые философские категории. Перевернём объективность в субъектность и обратно.

Читать далее

Lissa Health — приложение для хранения личной медицинской информации (v1.2)

Время на прочтение3 мин
Охват и читатели809

Обновилось приложение для хранения личной медицинской информации "слэш" персональный AI-помощник Lissa Health.

Мы добавили загрузку и распознавание результатов лабораторных анализов в виде изображений, возможность загрузки вложений в документ, экспорт данных пользователя в JSON и кое-что еще.

Подробности ниже.

Читать далее

Оптимизация дашбордов в Superset

Уровень сложностиСредний
Время на прочтение10 мин
Охват и читатели4.5K
В этой статье я бы хотела поделиться опытом в оптимизации дашбордов в Apache Superset. Мы в Газпромбанке перешли на этот BI-инструмент относительно недавно. В основном мы работаем в нем с движком Impala.

Иногда бывает так, что некоторые дашборды загружаются дольше других, роняют страницу в браузере или даже замедляют работу для других пользователей на кластере.

У коллег накопился большой опыт в оптимизации SQL-запросов (о чем недавно также вышла статья) и в стандартах разработки витрин. Но конкретно в работе с построением дашбордов есть своя специфика, которая не всегда учитывается, когда речь заходит об оптимальности работы. Superset так же проводит все расчеты на стороне источника через запросы к БД, как это происходит в обычных IDE. Только он преобразует конечный результат в графики, что скрывает от наших глаз сложные запросы, которые иногда там формируются.

Ниже мы рассмотрим, как можно оптимизировать работу с датасетами, графиками и содержанием дашборда, а также как ускорить загрузку с помощью агрегированных таблиц.


Читать дальше →

Цифровизация чувств: упаковываем эмоции в датафрейм или базу данных

Уровень сложностиПростой
Время на прочтение52 мин
Охват и читатели1.9K

Эмоций, чувств и их оттенков много, они разные, и чтобы во всём этом разобраться, соберем их... в базу данных или датафрейм. Заодно установим связи между эмоциями, а также попробуем оценить разные числовые «эмоциональные коэффициенты»... Имея такую базу данных, мы сможем научить LLM (да и самих себя!) распознавать эмоции и их оттенки, лучше понимать человека. В этой статье описываются практические моменты создания такого «датафрейма эмоций». Важно упомянуть, что такую работу автор смог проделать только благодаря нескольким LLM, работа с которыми на порядки сократила объем работы по сбору и обработке информации (но текст статьи я писал по‑старинке — руками...)

Читать далее

Зачем бизнесу нужно DWH и как обосновать необходимость проекта? Можно ли оценить окупаемость хранилища?

Время на прочтение9 мин
Охват и читатели2.7K

Проекты внедрения DWH относятся к трудоемким и всегда требуют вложений, стоимость проектов начинается от 1,5 млн руб.

К проекту необходимо привлекать системных аналитиков, архитекторов DWH, разработчиков, DevOps, дата-инженеров. Кроме затрат на ФОТ, нужны бюджеты на инфраструктуру и технологии, так как готового решения DWH из "коробки" не существует.

Как при таких затратах аргументировать для бизнеса необходимость внедрения DWH? Какие бизнес-задачи может решить хранилище данных? Можно ли оценить окупаемость и эффективность внедрения? Читайте в статье.

Читать далее

Как превратить сырые данные в аналитический отчет

Уровень сложностиПростой
Время на прочтение10 мин
Охват и читатели2.3K

Делюсь опытом и готовыми решениями по сбору и структурированию сырых данных, превращая их в полезный инструмент для аналитиков.

Читать далее

Проблема Deep Research

Уровень сложностиПростой
Время на прочтение6 мин
Охват и читатели3.6K

Deep Research компании OpenAI создан для меня, но я не могу им пользоваться. Это ещё одно потрясающее демо, увы, поломанное. Но ломается оно очень интересным образом.

По большей мере я зарабатываю на жизнь исследованиями и анализом. Я думаю о данных, которые хочу увидеть, и ищу их; собираю и сопоставляю их, создаю графики, решаю, что они скучные, и пробую снова, нахожу новые способы и новые данные для понимания и объяснения проблемы, пишу текст и составляю графики, пытаясь выразить то, что я думаю. А потом я разговариваю об этом с людьми.

При этом часто требуется большой объём ручного труда: под каждым графиком скрывается айсберг. И похоже, Deep Research предназначен именно для меня. Подходит ли он под мои задачи?

Я могу протестировать его на новой задаче, но прежде чем тратить время и кредиты, к счастью, можно воспользоваться образцом отчёта со страницы OpenAI. Этот отчёт посвящён тому, что я достаточно хорошо изучил — смартфонам. Давайте исследуем его.

Читать далее

Obsidian: Типы данных

Уровень сложностиПростой
Время на прочтение14 мин
Охват и читатели23K

Этой статьей я хотел бы начать серию обучающих материалов, в которой поделюсь всем, что мне известно про редактирование текста и организацию работы в Obsidianи с Markdown файлами. 

Покажу интересные способы использования markdown заметок для решения разных задач.

Читать далее

api2app: Как из домашнего компьютера сделать сервер для публичного приложения

Уровень сложностиПростой
Время на прочтение7 мин
Охват и читатели5.1K

Ранее я уже рассказывал, что при разработке api2app вдохновлялся идеей Python-библиотеки Gradio. У этой библиотеки есть очень полезный функционал: можно запустить приложение на локальном компьютере в режиме share (поделиться), тогда будет сгенерирована публичная ссылка, по которой это приложение будет доступно на любом другом компьютере, подключенном к Интернет.

В этой статье пошагово опишу свой способ. Есть свои плюсы и свои минусы, но в любом случае, думаю, альтернатива не будет лишней. Для примера создам онлайн-приложение для создания транскрипций аудио с помощью проекта whisper.cpp. Делаю всё на Ubuntu, но, думаю, на Windows это повторить будет не сложно.

Читать далее

Исследование набора данных для обучения LVLM — SeeClick (Web Data)

Уровень сложностиСредний
Время на прочтение13 мин
Охват и читатели488

В данной статье будет рассмотрен набор данных для обучения LVLM (Large Visual Language Model), который использовался авторами статьи "SeeClick: Harnessing GUI Grounding for Advanced Visual GUI Agents" при обучении модели SeeClick, которая показывает достаточно неплохие результаты, по сравнению с аналогичными решениями. Рассмотрен будет только набор данных, который использовался при обучении SeeClick для определения элементов на веб-страницах, полученный авторами этой модели с помощью Common Crawl (открытый репозиторий набора данных о веб-страницах).

Данная статья может быть полезна специалистам, которые начинают разрабатывать свою LVLM работающую со скриншотами пользовательского экрана (image-ориентированные), а не с содержимым HTML веб-приложения (text-ориентированные). В статье будет рассмотрена базовая работа с частью предоставляемого SeeClick набора данных (10000 размеченных изображений общим объёмом в 4.8 Гб).

Читать далее

Использование dax.do для произвольной схемы данных на основе перевода DAX в Contoso через Telegram бот

Время на прочтение3 мин
Охват и читатели734

Привет, Хабр! В работе Business Intelligence аналитика могут встречаться задачи проверки DAX запроса на произвольной схеме, к которой может не быть доступа. Перевод DAX запроса из исходной схемы в схему, к которой есть доступ и есть возможность выполнения DAX запроса, может занимать некоторое время и требовать определенных усилий. В век AI, безусловно, хочется делать перевод в схему автоматически, при помощи AI. Кроме того, ресурс dax.do является достаточно удобной песочницей для Contoso схемы данных, поэтому такое впечатление, что одним из быстрых решений для анализа и запуска DAX без схемы данных является перевод произвольного DAX в dax.do (например, автоматически при помощи Telegram бота), что позволяет уже дальше смотреть полученный DAX в песочнице dax.do на схеме Contoso без каких-то ограничений. Это позволяет проверить работоспособность DAX на незнакомой схеме за секунды. Интересующимся новыми возможностями DAX песочниц — добро пожаловать под кат :)

Читать далее

Ближайшие события

Визуальная история. Как инфографика меняет подход к данным. Guest Post

Время на прочтение12 мин
Охват и читатели2.4K

Привет, Хабр!

Мне очень понравились ваши отклики на одну из моих недавних статей «Не трогай моих чертежей! История науки в знаменитых изображениях» (и ваша высокая оценка +43), поэтому я какое‑то время подумывал продолжить эту тему большой статьёй об инфографике. Но время шло, и за помощью по этой теме я обратился к уважаемой Анастасии Лазукиной @anastasiamrr, ранее писавшей для этого блога отличные гостевые посты. На Хабре Анастасия сотрудничает с корпоративным блогом FirstVDS, где пишет замечательные материалы с выраженной биореакторной спецификой. Подписывайтесь на неё, следите за обновлениями, а пока заходите под кат. Далее — от автора.

Читать далее

ТОП 6 фишек Zabbix: применение и настройка

Уровень сложностиПростой
Время на прочтение7 мин
Охват и читатели16K

Всем привет! Меня зовут Женя. Я инженер поддержки бизнес-приложений в компании Банки.ру.
Не так давно мы в направлении Мобайл решили прокачать технический и продуктовый мониторинг и с этой целью начали использовать Zabbix. В результате всю логику алертинга перенесли из Grafana в новый инструмент. Благодаря этому и родилась идея поделиться опробованными фишками Zabbix с сообществом. 

В этой статье я:

• расскажу об интересных возможностях Zabbix;
• поделюсь кейсами их использования и примерами настроек;
• сравню Zabbix и Grafana и расскажу, как мы применяем их в тандеме.

Информация будет полезна продуктовым командам, которые используют только Grafana для визуализации сервисных метрик и алертинга, но хотят масштабировать и развивать свой мониторинг.

Читать далее!

Возможности комбинаторов в ClickHouse

Время на прочтение9 мин
Охват и читатели2.1K

Что делать с запросами к СУБД, выполнение которых затягивается на десятки минут, как можно оптимизировать вложенные операторы, чтобы получить нужные данные за секунды? За счет чего подобные операции выполняются в Visiology автоматически? Ответы на эти вопросы мы попробуем дать сегодня на примере небольшого синтетического теста со сложным SQL-запросом, и разберемся при чем тут комбинаторы в ClickHouse. Эта статья будет полезна тем, кто интересуется SQL-оптимизаторами, а также всем существующим и будущим пользователям Visiology, кто хочет заглянуть под капот системы. Если вы из их числа, добро пожаловать под кат :)

Читать далее

«Чем ближе к вокзалу, тем хуже кебаб?»: «исследование»

Уровень сложностиПростой
Время на прочтение10 мин
Охват и читатели8.9K

Во французском сабреддите я наткнулся на пост с интересной гипотезой:

Чем ближе точка к вокзалу, тем хуже там кебаб.

Пост на французском привлёк достаточно большое внимание, учитывая относительно небольшой размер сабреддита; это доказывало, что многие с ним согласны. Впрочем, в комментариях были и критики, рассказывающие истории, противоречащие сформулированной гипотезе.

Я решил, что мне нечем заняться, ведь я вылетевший с учёбы выгоревший безработный с новоприобретённым диагнозом «аутизм», поэтому стоит пожертвовать немного своего времени на благую цель — проведение этого неформального «исследования». В пределах следующих трёх рабочих дней мне на почту точно придёт Нобелевская премия мира и куча рабочих офферов.

Читать далее

Почему observability — это не только Grafana и Prometheus

Время на прочтение11 мин
Охват и читатели12K

Вы видите красивые графики в Grafana, алерты настроены, метрики собираются — значит, все под контролем? На самом деле, нет. Когда в продакшене что-то пойдет не так, Prometheus покажет скачок latency, но не объяснит, почему это произошло. Логи могут не содержать нужных данных. Трейсов нет. Итог — часы расследования, хаотичные гипотезы, поиски иголки в стоге сена.

Observability — одно из тех модных слов, которые часто понимают неправильно. Для многих оно сводится к связке Grafana + Prometheus, не более. Однако в реальных системах наблюдаемость (observaбыстроbility) — это больше, чем просто красивые дашборды с метриками. В этой статье разберемся, почему классический стек не покрывает все задачи, какие альтернативы есть на рынке и как построить современный observability-стек.
Читать дальше →

Как я маркетдату агрегировал. Визуализация данных Nasdaq, LSE и MOEX

Время на прочтение2 мин
Охват и читатели525

В предыдущей статье я рассказал о finmap.org - инструменте визуализации данных Мосбиржи. Спасибо хабравчанам за отзывы и предложения. Отдельная благодарность за донаты - я уже покрыть расходы на AWS. Благодаря вашим идеям, в finmap.org появилась строка поиска по тикеру, а в portfolio можно отобразить американские ETF.

В новой версии опубликован исходный код Github Workflows, добавлены данные торгов Лондонской биржи. Датафайлы приведены к общему формату, это сильно упростило разработку. Отображение исторических данных в виде гистограммы теперь доступно для всех площадок.

Читать далее

С корабля на бал. Межконтинентальный заплыв из Азии в Европу (анализ данных в комплекте)

Время на прочтение17 мин
Охват и читатели1.4K

Повествование пойдет о Босфорском боевике, который состоялся в 2016 году во времена Турецкого военного путча.

⋮ Дисклеймер.
Материал опубликован из собственных очерков, которые были написаны, переписаны и убраны в стол. Во-первых, при случае удобно поделиться с кем-то ссылкой на свою историю, чем расчехлять черновики, во-вторых, присутствует уникальный материал (анализ данных), который любознательные читатели найдут только в этом лонгриде, и в третьих, продолжаю вдохновлять тех людей, кто ищет частичку мотивации.

Мне нужна мотивация