Как стать автором
Поиск
Написать публикацию
Обновить
41.49

Визуализация данных *

Облекаем данные в красивую оболочку

Сначала показывать
Порог рейтинга
Уровень сложности

Неизвестный библейский алгоритм кластеризации

Уровень сложностиСредний
Время на прочтение6 мин
Количество просмотров9.7K

Времена, когда горящий куст мог принести озарение, давно прошли. Примитивный опыт уже не может стать источником открытий. А всё потому, что он обобщён и впитан в культуру человечества. И чтобы подключиться к мудрости предков нужно опереться на философию. В этой статье мы познакомимся с новым алгоритмом кластеризации и поверхностно затронем некоторые философские категории. Перевернём объективность в субъектность и обратно.

Читать далее

Lissa Health — приложение для хранения личной медицинской информации (v1.2)

Время на прочтение3 мин
Количество просмотров1.1K

Обновилось приложение для хранения личной медицинской информации "слэш" персональный AI-помощник Lissa Health.

Мы добавили загрузку и распознавание результатов лабораторных анализов в виде изображений, возможность загрузки вложений в документ, экспорт данных пользователя в JSON и кое-что еще.

Подробности ниже.

Читать далее

Оптимизация дашбордов в Superset

Уровень сложностиСредний
Время на прочтение10 мин
Количество просмотров4.9K
В этой статье я бы хотела поделиться опытом в оптимизации дашбордов в Apache Superset. Мы в Газпромбанке перешли на этот BI-инструмент относительно недавно. В основном мы работаем в нем с движком Impala.

Иногда бывает так, что некоторые дашборды загружаются дольше других, роняют страницу в браузере или даже замедляют работу для других пользователей на кластере.

У коллег накопился большой опыт в оптимизации SQL-запросов (о чем недавно также вышла статья) и в стандартах разработки витрин. Но конкретно в работе с построением дашбордов есть своя специфика, которая не всегда учитывается, когда речь заходит об оптимальности работы. Superset так же проводит все расчеты на стороне источника через запросы к БД, как это происходит в обычных IDE. Только он преобразует конечный результат в графики, что скрывает от наших глаз сложные запросы, которые иногда там формируются.

Ниже мы рассмотрим, как можно оптимизировать работу с датасетами, графиками и содержанием дашборда, а также как ускорить загрузку с помощью агрегированных таблиц.


Читать дальше →

Цифровизация чувств: упаковываем эмоции в датафрейм или базу данных

Уровень сложностиПростой
Время на прочтение52 мин
Количество просмотров2.5K

Эмоций, чувств и их оттенков много, они разные, и чтобы во всём этом разобраться, соберем их... в базу данных или датафрейм. Заодно установим связи между эмоциями, а также попробуем оценить разные числовые «эмоциональные коэффициенты»... Имея такую базу данных, мы сможем научить LLM (да и самих себя!) распознавать эмоции и их оттенки, лучше понимать человека. В этой статье описываются практические моменты создания такого «датафрейма эмоций». Важно упомянуть, что такую работу автор смог проделать только благодаря нескольким LLM, работа с которыми на порядки сократила объем работы по сбору и обработке информации (но текст статьи я писал по‑старинке — руками...)

Читать далее

Зачем бизнесу нужно DWH и как обосновать необходимость проекта? Можно ли оценить окупаемость хранилища?

Время на прочтение9 мин
Количество просмотров3.4K

Проекты внедрения DWH относятся к трудоемким и всегда требуют вложений, стоимость проектов начинается от 1,5 млн руб.

К проекту необходимо привлекать системных аналитиков, архитекторов DWH, разработчиков, DevOps, дата-инженеров. Кроме затрат на ФОТ, нужны бюджеты на инфраструктуру и технологии, так как готового решения DWH из "коробки" не существует.

Как при таких затратах аргументировать для бизнеса необходимость внедрения DWH? Какие бизнес-задачи может решить хранилище данных? Можно ли оценить окупаемость и эффективность внедрения? Читайте в статье.

Читать далее

Как превратить сырые данные в аналитический отчет

Уровень сложностиПростой
Время на прочтение10 мин
Количество просмотров3.1K

Делюсь опытом и готовыми решениями по сбору и структурированию сырых данных, превращая их в полезный инструмент для аналитиков.

Читать далее

Проблема Deep Research

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров5K

Deep Research компании OpenAI создан для меня, но я не могу им пользоваться. Это ещё одно потрясающее демо, увы, поломанное. Но ломается оно очень интересным образом.

По большей мере я зарабатываю на жизнь исследованиями и анализом. Я думаю о данных, которые хочу увидеть, и ищу их; собираю и сопоставляю их, создаю графики, решаю, что они скучные, и пробую снова, нахожу новые способы и новые данные для понимания и объяснения проблемы, пишу текст и составляю графики, пытаясь выразить то, что я думаю. А потом я разговариваю об этом с людьми.

При этом часто требуется большой объём ручного труда: под каждым графиком скрывается айсберг. И похоже, Deep Research предназначен именно для меня. Подходит ли он под мои задачи?

Я могу протестировать его на новой задаче, но прежде чем тратить время и кредиты, к счастью, можно воспользоваться образцом отчёта со страницы OpenAI. Этот отчёт посвящён тому, что я достаточно хорошо изучил — смартфонам. Давайте исследуем его.

Читать далее

Obsidian: Типы данных

Уровень сложностиПростой
Время на прочтение14 мин
Количество просмотров34K

Этой статьей я хотел бы начать серию обучающих материалов, в которой поделюсь всем, что мне известно про редактирование текста и организацию работы в Obsidianи с Markdown файлами. 

Покажу интересные способы использования markdown заметок для решения разных задач.

Читать далее

api2app: Как из домашнего компьютера сделать сервер для публичного приложения

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров7K

Ранее я уже рассказывал, что при разработке api2app вдохновлялся идеей Python-библиотеки Gradio. У этой библиотеки есть очень полезный функционал: можно запустить приложение на локальном компьютере в режиме share (поделиться), тогда будет сгенерирована публичная ссылка, по которой это приложение будет доступно на любом другом компьютере, подключенном к Интернет.

В этой статье пошагово опишу свой способ. Есть свои плюсы и свои минусы, но в любом случае, думаю, альтернатива не будет лишней. Для примера создам онлайн-приложение для создания транскрипций аудио с помощью проекта whisper.cpp. Делаю всё на Ubuntu, но, думаю, на Windows это повторить будет не сложно.

Читать далее

Исследование набора данных для обучения LVLM — SeeClick (Web Data)

Уровень сложностиСредний
Время на прочтение13 мин
Количество просмотров679

В данной статье будет рассмотрен набор данных для обучения LVLM (Large Visual Language Model), который использовался авторами статьи "SeeClick: Harnessing GUI Grounding for Advanced Visual GUI Agents" при обучении модели SeeClick, которая показывает достаточно неплохие результаты, по сравнению с аналогичными решениями. Рассмотрен будет только набор данных, который использовался при обучении SeeClick для определения элементов на веб-страницах, полученный авторами этой модели с помощью Common Crawl (открытый репозиторий набора данных о веб-страницах).

Данная статья может быть полезна специалистам, которые начинают разрабатывать свою LVLM работающую со скриншотами пользовательского экрана (image-ориентированные), а не с содержимым HTML веб-приложения (text-ориентированные). В статье будет рассмотрена базовая работа с частью предоставляемого SeeClick набора данных (10000 размеченных изображений общим объёмом в 4.8 Гб).

Читать далее

Использование dax.do для произвольной схемы данных на основе перевода DAX в Contoso через Telegram бот

Время на прочтение3 мин
Количество просмотров1.1K

Привет, Хабр! В работе Business Intelligence аналитика могут встречаться задачи проверки DAX запроса на произвольной схеме, к которой может не быть доступа. Перевод DAX запроса из исходной схемы в схему, к которой есть доступ и есть возможность выполнения DAX запроса, может занимать некоторое время и требовать определенных усилий. В век AI, безусловно, хочется делать перевод в схему автоматически, при помощи AI. Кроме того, ресурс dax.do является достаточно удобной песочницей для Contoso схемы данных, поэтому такое впечатление, что одним из быстрых решений для анализа и запуска DAX без схемы данных является перевод произвольного DAX в dax.do (например, автоматически при помощи Telegram бота), что позволяет уже дальше смотреть полученный DAX в песочнице dax.do на схеме Contoso без каких-то ограничений. Это позволяет проверить работоспособность DAX на незнакомой схеме за секунды. Интересующимся новыми возможностями DAX песочниц — добро пожаловать под кат :)

Читать далее

Визуальная история. Как инфографика меняет подход к данным. Guest Post

Время на прочтение12 мин
Количество просмотров2.9K

Привет, Хабр!

Мне очень понравились ваши отклики на одну из моих недавних статей «Не трогай моих чертежей! История науки в знаменитых изображениях» (и ваша высокая оценка +43), поэтому я какое‑то время подумывал продолжить эту тему большой статьёй об инфографике. Но время шло, и за помощью по этой теме я обратился к уважаемой Анастасии Лазукиной @anastasiamrr, ранее писавшей для этого блога отличные гостевые посты. На Хабре Анастасия сотрудничает с корпоративным блогом FirstVDS, где пишет замечательные материалы с выраженной биореакторной спецификой. Подписывайтесь на неё, следите за обновлениями, а пока заходите под кат. Далее — от автора.

Читать далее

ТОП 6 фишек Zabbix: применение и настройка

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров21K

Всем привет! Меня зовут Женя. Я инженер поддержки бизнес-приложений в компании Банки.ру.
Не так давно мы в направлении Мобайл решили прокачать технический и продуктовый мониторинг и с этой целью начали использовать Zabbix. В результате всю логику алертинга перенесли из Grafana в новый инструмент. Благодаря этому и родилась идея поделиться опробованными фишками Zabbix с сообществом. 

В этой статье я:

• расскажу об интересных возможностях Zabbix;
• поделюсь кейсами их использования и примерами настроек;
• сравню Zabbix и Grafana и расскажу, как мы применяем их в тандеме.

Информация будет полезна продуктовым командам, которые используют только Grafana для визуализации сервисных метрик и алертинга, но хотят масштабировать и развивать свой мониторинг.

Читать далее!

Ближайшие события

Возможности комбинаторов в ClickHouse

Время на прочтение9 мин
Количество просмотров2.8K

Что делать с запросами к СУБД, выполнение которых затягивается на десятки минут, как можно оптимизировать вложенные операторы, чтобы получить нужные данные за секунды? За счет чего подобные операции выполняются в Visiology автоматически? Ответы на эти вопросы мы попробуем дать сегодня на примере небольшого синтетического теста со сложным SQL-запросом, и разберемся при чем тут комбинаторы в ClickHouse. Эта статья будет полезна тем, кто интересуется SQL-оптимизаторами, а также всем существующим и будущим пользователям Visiology, кто хочет заглянуть под капот системы. Если вы из их числа, добро пожаловать под кат :)

Читать далее

«Чем ближе к вокзалу, тем хуже кебаб?»: «исследование»

Уровень сложностиПростой
Время на прочтение10 мин
Количество просмотров14K

Во французском сабреддите я наткнулся на пост с интересной гипотезой:

Чем ближе точка к вокзалу, тем хуже там кебаб.

Пост на французском привлёк достаточно большое внимание, учитывая относительно небольшой размер сабреддита; это доказывало, что многие с ним согласны. Впрочем, в комментариях были и критики, рассказывающие истории, противоречащие сформулированной гипотезе.

Я решил, что мне нечем заняться, ведь я вылетевший с учёбы выгоревший безработный с новоприобретённым диагнозом «аутизм», поэтому стоит пожертвовать немного своего времени на благую цель — проведение этого неформального «исследования». В пределах следующих трёх рабочих дней мне на почту точно придёт Нобелевская премия мира и куча рабочих офферов.

Читать далее

Почему observability — это не только Grafana и Prometheus

Время на прочтение11 мин
Количество просмотров19K

Вы видите красивые графики в Grafana, алерты настроены, метрики собираются — значит, все под контролем? На самом деле, нет. Когда в продакшене что-то пойдет не так, Prometheus покажет скачок latency, но не объяснит, почему это произошло. Логи могут не содержать нужных данных. Трейсов нет. Итог — часы расследования, хаотичные гипотезы, поиски иголки в стоге сена.

Observability — одно из тех модных слов, которые часто понимают неправильно. Для многих оно сводится к связке Grafana + Prometheus, не более. Однако в реальных системах наблюдаемость (observaбыстроbility) — это больше, чем просто красивые дашборды с метриками. В этой статье разберемся, почему классический стек не покрывает все задачи, какие альтернативы есть на рынке и как построить современный observability-стек.
Читать дальше →

Как я маркетдату агрегировал. Визуализация данных Nasdaq, LSE и MOEX

Время на прочтение2 мин
Количество просмотров757

В предыдущей статье я рассказал о finmap.org - инструменте визуализации данных Мосбиржи. Спасибо хабравчанам за отзывы и предложения. Отдельная благодарность за донаты - я уже покрыть расходы на AWS. Благодаря вашим идеям, в finmap.org появилась строка поиска по тикеру, а в portfolio можно отобразить американские ETF.

В новой версии опубликован исходный код Github Workflows, добавлены данные торгов Лондонской биржи. Датафайлы приведены к общему формату, это сильно упростило разработку. Отображение исторических данных в виде гистограммы теперь доступно для всех площадок.

Читать далее

С корабля на бал. Межконтинентальный заплыв из Азии в Европу (анализ данных в комплекте)

Время на прочтение17 мин
Количество просмотров1.9K

Повествование пойдет о Босфорском боевике, который состоялся в 2016 году во времена Турецкого военного путча.

⋮ Дисклеймер.
Материал опубликован из собственных очерков, которые были написаны, переписаны и убраны в стол. Во-первых, при случае удобно поделиться с кем-то ссылкой на свою историю, чем расчехлять черновики, во-вторых, присутствует уникальный материал (анализ данных), который любознательные читатели найдут только в этом лонгриде, и в третьих, продолжаю вдохновлять тех людей, кто ищет частичку мотивации.

Мне нужна мотивация

Модель составного полупростого числа

Уровень сложностиСредний
Время на прочтение12 мин
Количество просмотров932

В предлагаемой статье приводится полная списочная многострочная модель (СММ) составного полупростого числа N и перечень вопросов, сопровождающих ее описание. Ответы на вопросы предлагается находить самим читателям. Найденные правильные ответы, либо комментируемые другими читателями, обеспечат глубокое понимание проблем, связанных с подобными числами и задачами. Выбор самих чисел предопределен их широким использованием в области информационной безопасности.
Рассматривая строки модели, особенно ее средней части читателя могут удивлять появления в строках квадратичных вычетов полных квадратов, возникающие интервалы между строками с кратными значениями делителей числа N, поведение средних вычетов и, возможно, что-то еще.

В предлагаемой вниманию читателей модели роль исследуемого числа отводится модулю N КЧКВ, т.е. N задан (может быть большим) и требуется в одной из задач отыскивать делители N.

Для моделирования выбрана простая зависимость (линейная) N = х1 + хо. Очевидно, что список представлений такой модели конечен, и для чисел ограниченного размера может быть легко построен в форме таблицы, содержащей S =½ (N –1) строк. Модель названа списочной многострочной моделью и кратко обозначается (СММ, СМ-модель).

Читать далее

«DAX Fiddle» в виде Telegram бота

Время на прочтение2 мин
Количество просмотров1.1K

Для многих языков есть свои online песочницы, например, для POSTGRES есть условный PostgreSQL Fiddle, также и для аналитического языка DAX хотелось бы побольше подобных инструментов. Существующий dax.do позволяет выполнять запросы условно только на стандартной схеме Contoso, и в век AI хотелось бы иметь инструмент для быстрого выполнения DAX запросов для произвольной схемы данных. Также генерация самой схемы и заполнение её данными также являются трудоемкими, и хотелось бы отдать это всё AI.

Кроме того, сейчас популярны Telegram боты, в связи с этим появилась идея создания Telegram бота для выполнения DAX (и построения простейшего дашборда-таблицы) на произвольной схеме данных, с автоматически сгенерированными данными, своего рода DAX Fiddle. Интересующимся DAX Fiddle — добро пожаловать под кат :)

Читать далее