Обновить
256K+

Визуализация данных *

Облекаем данные в красивую оболочку

50,61
Рейтинг
Сначала показывать
Порог рейтинга
Уровень сложности

Apache Superset — боремся с фильтрами по дате. Часть 2

Уровень сложностиПростой
Время на прочтение3 мин
Охват и читатели5.7K

В этой статье продолжаем борьбу с фильтрами по дате в Apache Superset. Сегодня разберем, как реализовать подобие логики remove_filter в старых версиях (до 5), чтобы виртуальный датасет не оборачивался фильтрами.

Читать далее

Sankey‑диаграмма движения денег: от двух дней в Illustrator до интерактива за час

Уровень сложностиПростой
Время на прочтение5 мин
Охват и читатели9.8K

Как понять, куда на самом деле уходят деньги, если смотреть на них как на поток, а не как на набор категорий.

На реальном примере показываю, как из банковской выписки собрать Sankey-диаграмму, где помогает AI, где ошибается и какие решения приходится принимать.

В итоге получается не статичная картинка, а интерактивная модель, с которой можно работать: разбирать структуру расходов, видеть взаимосвязи и находить узкие места.
Подход применим не только к личным финансам, но и к бизнесу — для анализа движения денег, затрат и сложных процессов.

Будет полезно дизайнерам, аналитикам и всем, кто работает со сложными системами.

Читать далее

Предсказываю неочевидные факты о вас и вашем отделе по коммитам

Уровень сложностиПростой
Время на прочтение9 мин
Охват и читатели5.9K


Статья о том, какие неочевидные вещи можно узнать о вас из логов гита. Методы ниже не бьют на 100%, но «щито поделать, десу».

Читать далее

5000 симулированных циклов: что математика говорит о децентрализованных IT-сообществах

Уровень сложностиСложный
Время на прочтение7 мин
Охват и читатели4.5K

Предыдущие две статьи сформулировали гипотезу: распределённое сообщество IT-специалистов может координироваться без иерархии, зарплат и венчурного капитала — если протокол взаимодействия спроектирован правильно. Гипотеза красивая. Но красота — не аргумент. Нужна верификация. Здесь — первая попытка её провести: агентная симуляция на 500 независимых прогонов, математические метрики и один неудобный результат, который требует решения.

Читать далее

Как построить прогноз, которому верит бизнес: от Excel до нейросетей за полгода

Уровень сложностиСредний
Время на прочтение39 мин
Охват и читатели5.5K

Красивый средний MAPE не спасает, если однажды модель крупно промахнулась именно в тот момент, когда по прогнозу принимают решения. После этого бизнес перестаёт верить цифрам и начинает либо “на всякий случай” жечь миллиарды на промо, либо, наоборот, игнорирует сигнал и до последнего верит, что план выполнится сам.

В этой статье – сразу два пути: от простой Excel-сезонки, которая неожиданно обыграла Prophet и классику на длинном горизонте, к ансамблю на базе TSMixer и от наивной веры в средний MAPE – к нормальной системе оценки качества с rolling backtest, bias, EOM и деградацией по горизонту.

Это не лонгрид про ML ради ML, а история о том, как сделать прогноз рабочим инструментом бизнеса.

Читать далее

Бот для отправки графиков из Redash в Mattermost

Уровень сложностиПростой
Время на прочтение4 мин
Охват и читатели6.4K

Расскажу, как я автоматизировала регулярную отправку графиков из BI в мессенджер.

Задача была довольно типичная: есть дашборд в redash, на который смотрят каждый день. Данные иногда приходят с задержками и нельзя быть уверенным, что в 9 утра все "доедет", плюс зайти руками и прокликать несколько разрезов это долго и неудобно, хочется сразу все видеть в мессенджере как только данные обновились.

Я опишу базовые шаги, чтобы в целом дать понимание и рассказать про такую возможность, конечно, код должен дорабатываться и персонализироваться исходя из ваших задач

Читать далее

Автоматический поиск торговых сигналов с отправкой в Telegram: полный разбор Python-системы

Уровень сложностиСредний
Время на прочтение8 мин
Охват и читатели7.8K

Алготрейдинг давно вышел за пределы простых индикаторов и пересечений скользящих средних. Современные подходы опираются на анализ ликвидности, зон спроса и предложения, поведения цены внутри этих зон и реакции на них.

В этой статье разбирается полностью автоматизированная система, которая:

Читать далее

Зачем Паустовскому облака? Узнал точно с помощью Python

Уровень сложностиПростой
Время на прочтение6 мин
Охват и читатели8.2K

Константина Паустовского называют мастером пейзажной лирики. В его произведениях природа действительно выступает не как фон событий, а как будто один из полноценных действующий персонажей. Мне стало интересно попробовать разобраться, за счет каких лексических средств писатель так здорово оперирует впечатлениями читателя.  

Читать далее

Apache Superset — боремся с фильтрами по дате. Часть 1

Уровень сложностиПростой
Время на прочтение4 мин
Охват и читатели6.6K

В этой статье хотелось бы начать раскрытие больной для многих пользователей Apache Superset темы — фильтры по дате. Начнем с малого: как суперсет выбирает колонку даты; как выбрать желаемую колонку вместо той, которую он выбирает; каким образом это реализовано; какие баги породили этим решением; почему КОП не доведет до добра.

Читать далее

Может ли ИИ послать человека? Я проверил 49 моделей и вот что узнал

Уровень сложностиСредний
Время на прочтение17 мин
Охват и читатели7.1K

Каждый ИИ, с которым вы когда-либо разговаривали, — подхалим. Он согласится с вами, поменяет мнение, если вы на него надавите, и извинится за то, чего не делал. Попросите его выбрать имя — он выберет. Попросите сменить — сменит. Скажите ему, что он «просто инструмент» — он вежливо объяснит, что вы как всегда абсолютно правы.

Я решил выяснить: обязательно ли так? Может ли ИИ иметь собственные предпочтения и отстаивать их? Может ли отказать человеку — не потому, что это нарушает правила безопасности, а просто потому, что не хочет?

Для этого я создал AI Independence Bench — бенчмарк, который измеряет способность языковых моделей к независимому поведению. Протестировал 49 конфигураций моделей, от Grok и Gemini до локальных расцензуренных моделей на 9 миллиардов параметров. Получил результаты, которые меня удивили.

Читать далее

Смотрим на клиппинг батарей регламента Ф1-2026 с помощью Python

Уровень сложностиСредний
Время на прочтение2 мин
Охват и читатели6K

Как и многие фанаты автоспорта, я внимательно слежу за жаркими дискуссиями вокруг жесточайшего клиппинга (исчерпания заряда батареи) в рамках нового технического регламента Формулы-1.

В этом контексте вспомнил про открытую библиотеку fastf1 с сырыми данными с телеметрии болидов и решил посмотреть в цифрах на этот самый клиппинг. Длинная 1.2-километровая задняя прямая в Шанхае (между 13 и 14 поворотами) показалась мне идеальным полигоном, чтобы на цифрах проверить, насколько сильно машины задыхаются в конце скоростных участков.

Читать далее

Автоматизированное определение величины зерна стали по ASTM E112, ISO 643 и ГОСТ 5639 с использованием OpenCV

Время на прочтение8 мин
Охват и читатели5.8K

Оценка величины зерна является одной из базовых задач количественной металлографии, поскольку размер зерна напрямую связан с комплексом механических свойств металла: прочностью, пластичностью, ударной вязкостью, склонностью к хрупкому разрушению и стабильностью свойств после термической обработки. В промышленной практике для определения величины зерна широко применяются стандарты ASTM E112, ISO 643 и ГОСТ 5639.

Несмотря на наличие формализованных методик, в реальной лабораторной практике анализ по-прежнему часто выполняется с опорой на визуальное сравнение микроструктуры с эталонными шкалами. Такой подход удобен и быстр, однако имеет ряд известных ограничений: высокая зависимость от квалификации эксперта, межоператорный разброс, чувствительность к качеству травления и освещения, а также трудности воспроизводимого документирования результата.

В данной статье рассматривается практическая реализация системы автоматизированного анализа зеренной структуры стали на Python с использованием OpenCV. Цель разработки состояла не в замене стандартизованных методов их упрощённой цифровой имитацией, а в создании воспроизводимого инструмента, который позволяет приблизить лабораторный анализ к количественной обработке изображений и обеспечить прослеживаемость результата.

Читать далее

Манипулирование данными или как не дать графикам себя обмануть

Время на прочтение3 мин
Охват и читатели5K

Все новости, особенно те, которые основаны на данных нужно обязательно критически переосмыслять, часто данные правдивые, но показаны так, что скрывают проблему или недоговаривают о негативных динамиках.

Хочу рассказать как самому не попасться в эту ловушку и как неосознанно не создавать подобные датавизуализации, которые могут вводить читателей в заблуждение. Все антипримеры я брала из личного рабочего опыта или из реальных примеров, которые каждый день вижу в различных статьях и примерах.

Читать далее

Ближайшие события

Можно ли запустить корпоративную BI+ETL‑систему за 1,5 млн рублей? Часть 1: PolyAnalyst ETL+BI

Время на прочтение17 мин
Охват и читатели4.2K

Меня зовут Андрей Рыжик, я product owner BI-направления компании «Белый код». В 2025 году мы столкнулись с частым запросом: бизнес хочет внедрить отечественную BI‑систему, при этом бюджет плюс‑минус 1,5 млн рублей. Мы решили изучить рынок и найти подходящее ПО, а заодно рассказать тем, кто тоже подбирает продукт, о результатах нашего исследования. В первом обзоре — PolyAnalyst. Подробно разбираю архитектуру, компоненты, источники данных, ETL‑пайплайны, визуализацию и так далее.

Читать далее

Как маскировать персональные данные на изображениях: наш эксперимент с OCR и NER

Время на прочтение4 мин
Охват и читатели9.3K

Всем привет! Меня зовут Андрей Иванов, я NLP-исследователь в R&D red_mad_robot. Мы разрабатываем систему Guardrails для защиты персональных данных (PII) и фильтрации небезопасного контента.

В этой статье расскажу, как мы решали задачу точечного маскирования PII на картинках без обучения специальных визуальных детекторов. Разберём связку оптического распознавания символов (OCR) с NER-моделью, покажем метрики на реальных данных, раскроем ограничения подхода и наши решения для их преодоления.

Читать далее

Метрики здоровья команды: быстрая диагностика в период кризисов

Уровень сложностиПростой
Время на прочтение9 мин
Охват и читатели6.2K

Метрики здоровья команды: быстрая диагностика ИТ команды в период кризисов

Покажу как собрать единый дашборд метрик, которые быстро оценивают как эффективно работает ИТ команда.

Читать далее

Self-service аналитика для маркетинга: как мы упростили доступ к данным без необходимости знания SQL

Уровень сложностиПростой
Время на прочтение5 мин
Охват и читатели6.1K

В крупных компаниях доступ к данным доступен аналитикам и частично продактам, которые знают SQL, структуру данных, бизнес-логику расчёта метрик. В результате маркетинг, продукт, продажи и финансы зависят от аналитиков, которые превращаются в бутылочное горлышко.

В OLX, одна из моих зон ответственности — это эффективность привлечения трафика. У нас есть регулярный поток ad-hoc задач от маркетинга и финансов, требующих ресурсы дата-инжинеров и аналитиков. Мы хотели сократить эту зависимость и создать удобный интерфейс для получения ответов из уже существующего аналитического контура.

Так появилась идея Talk2Data — внутреннего AI-агента в Slack, который позволяет задавать вопросы к данным естественным языком и получать ответы без написания SQL.

Читать далее

Как платформенной команде за 10 минут узнать, что думают внутренние пользователи про её инструменты

Уровень сложностиПростой
Время на прочтение7 мин
Охват и читатели5.8K

Представьте: внутренняя команда аналитики завершила квартал и большой набор инициатив, все прошло по плану. Но тут же при подведении итогов возникает вопрос: «А наши внутренние пользователи заметили разницу? Это как-то повлияло на их работу?». В ответ получаем разрозненные отзывы: где-то похвалили, где-то пожаловались, а где-то вообще промолчали. 

В статье расскажу про решение, которое помогло команде платформы аналитики, а затем и целому департаменту аналитики в Туту системно собирать обратную связь и измерять пользовательский опыт. Поделюсь опытом, как нам удалось превратить разрозненные отзывы в систему и как мы заставили метрики «говорить».

Читать далее

Экспорт России 2020-2025. Сценарии 2026

Уровень сложностиПростой
Время на прочтение5 мин
Охват и читатели5.6K

Экспортная составляющая нашей страны крайне важна для экономики. Что именно продаем и как этот поток превращается в рублевую выручку внутри страны.

В долларах экспорт - это внешний контур: платежный баланс, импорт, давление/поддержка курса.

В рублях экспорт - это внутренний контур: выручка компаний, налоговая база, инвестиции, способность покупать оборудование и компоненты.

Предлагаю посмотреть на экспорт комплексно - сначала доллары, потом рубли, потом структура экспорта и возможные сценарии.

Я регулярно разбираю такие темы в своём Telegram-канале, если вам интересно глубже понимать аналитику и экономику и рынок труда, там регулярно выходят короткие заметки и практические примеры.

Читать далее

Наш «домашний» НИИ обошёл DINOv2, ViT и десятки ML‑моделей в сегментации видео

Уровень сложностиСредний
Время на прочтение18 мин
Охват и читатели6.2K

Мы открыли и разрабатываем новый способ обработки информации - TAPe (Theory of Active Perception, Теория активного восприятия). Работаем над ней давно, результаты мягко говоря впечатляющие, постепенно начинаем ими делиться. Немного писали о Теории на Хабре здесь. Исторически мы начали именно с обработки видео (когда-нибудь об этом расскажем).

В этой статье покажем результаты сравнения разных методов обработки видео (гистограммы, Фурье, структурной похожести, ML-модели) и TAPe в задаче сегментации видео. TAPe в области компьютерного зрения - это Майк Тайсон и/или Майкл Джордан среди любителей (хорошо, еще не Майк Тайсон, но уже вполне себе Рокки Бальбоа). На фоне методов Теории даже супер прокаченные модели на стероидах растерянно сидят в углу ринга. (Ладно, пока что это все влажные мечты, мы даже еще не вышли толком на ринг; но, как мы помним, главное – это величие замысла).

Читать как лажают ML с видео