Обновить
256K+

Визуализация данных *

Облекаем данные в красивую оболочку

34,18
Рейтинг
Сначала показывать
Порог рейтинга
Уровень сложности

Как построить прогноз, которому верит бизнес: от Excel до нейросетей за полгода

Уровень сложностиСредний
Время на прочтение39 мин
Охват и читатели3.9K

Красивый средний MAPE не спасает, если однажды модель крупно промахнулась именно в тот момент, когда по прогнозу принимают решения. После этого бизнес перестаёт верить цифрам и начинает либо “на всякий случай” жечь миллиарды на промо, либо, наоборот, игнорирует сигнал и до последнего верит, что план выполнится сам.

В этой статье – сразу два пути: от простой Excel-сезонки, которая неожиданно обыграла Prophet и классику на длинном горизонте, к ансамблю на базе TSMixer и от наивной веры в средний MAPE – к нормальной системе оценки качества с rolling backtest, bias, EOM и деградацией по горизонту.

Это не лонгрид про ML ради ML, а история о том, как сделать прогноз рабочим инструментом бизнеса.

Читать далее

Новости

Бот для отправки графиков из Redash в Mattermost

Уровень сложностиПростой
Время на прочтение4 мин
Охват и читатели5.1K

Расскажу, как я автоматизировала регулярную отправку графиков из BI в мессенджер.

Задача была довольно типичная: есть дашборд в redash, на который смотрят каждый день. Данные иногда приходят с задержками и нельзя быть уверенным, что в 9 утра все "доедет", плюс зайти руками и прокликать несколько разрезов это долго и неудобно, хочется сразу все видеть в мессенджере как только данные обновились.

Я опишу базовые шаги, чтобы в целом дать понимание и рассказать про такую возможность, конечно, код должен дорабатываться и персонализироваться исходя из ваших задач

Читать далее

Автоматический поиск торговых сигналов с отправкой в Telegram: полный разбор Python-системы

Уровень сложностиСредний
Время на прочтение8 мин
Охват и читатели6.8K

Алготрейдинг давно вышел за пределы простых индикаторов и пересечений скользящих средних. Современные подходы опираются на анализ ликвидности, зон спроса и предложения, поведения цены внутри этих зон и реакции на них.

В этой статье разбирается полностью автоматизированная система, которая:

Читать далее

Зачем Паустовскому облака? Узнал точно с помощью Python

Уровень сложностиПростой
Время на прочтение6 мин
Охват и читатели7.7K

Константина Паустовского называют мастером пейзажной лирики. В его произведениях природа действительно выступает не как фон событий, а как будто один из полноценных действующий персонажей. Мне стало интересно попробовать разобраться, за счет каких лексических средств писатель так здорово оперирует впечатлениями читателя.  

Читать далее

Apache Superset — боремся с фильтрами по дате. Часть 1

Уровень сложностиПростой
Время на прочтение4 мин
Охват и читатели5.9K

В этой статье хотелось бы начать раскрытие больной для многих пользователей Apache Superset темы — фильтры по дате. Начнем с малого: как суперсет выбирает колонку даты; как выбрать желаемую колонку вместо той, которую он выбирает; каким образом это реализовано; какие баги породили этим решением; почему КОП не доведет до добра.

Читать далее

Может ли ИИ послать человека? Я проверил 49 моделей и вот что узнал

Уровень сложностиСредний
Время на прочтение17 мин
Охват и читатели6.4K

Каждый ИИ, с которым вы когда-либо разговаривали, — подхалим. Он согласится с вами, поменяет мнение, если вы на него надавите, и извинится за то, чего не делал. Попросите его выбрать имя — он выберет. Попросите сменить — сменит. Скажите ему, что он «просто инструмент» — он вежливо объяснит, что вы как всегда абсолютно правы.

Я решил выяснить: обязательно ли так? Может ли ИИ иметь собственные предпочтения и отстаивать их? Может ли отказать человеку — не потому, что это нарушает правила безопасности, а просто потому, что не хочет?

Для этого я создал AI Independence Bench — бенчмарк, который измеряет способность языковых моделей к независимому поведению. Протестировал 49 конфигураций моделей, от Grok и Gemini до локальных расцензуренных моделей на 9 миллиардов параметров. Получил результаты, которые меня удивили.

Читать далее

Смотрим на клиппинг батарей регламента Ф1-2026 с помощью Python

Уровень сложностиСредний
Время на прочтение2 мин
Охват и читатели5.7K

Как и многие фанаты автоспорта, я внимательно слежу за жаркими дискуссиями вокруг жесточайшего клиппинга (исчерпания заряда батареи) в рамках нового технического регламента Формулы-1.

В этом контексте вспомнил про открытую библиотеку fastf1 с сырыми данными с телеметрии болидов и решил посмотреть в цифрах на этот самый клиппинг. Длинная 1.2-километровая задняя прямая в Шанхае (между 13 и 14 поворотами) показалась мне идеальным полигоном, чтобы на цифрах проверить, насколько сильно машины задыхаются в конце скоростных участков.

Читать далее

Автоматизированное определение величины зерна стали по ASTM E112, ISO 643 и ГОСТ 5639 с использованием OpenCV

Время на прочтение8 мин
Охват и читатели5.5K

Оценка величины зерна является одной из базовых задач количественной металлографии, поскольку размер зерна напрямую связан с комплексом механических свойств металла: прочностью, пластичностью, ударной вязкостью, склонностью к хрупкому разрушению и стабильностью свойств после термической обработки. В промышленной практике для определения величины зерна широко применяются стандарты ASTM E112, ISO 643 и ГОСТ 5639.

Несмотря на наличие формализованных методик, в реальной лабораторной практике анализ по-прежнему часто выполняется с опорой на визуальное сравнение микроструктуры с эталонными шкалами. Такой подход удобен и быстр, однако имеет ряд известных ограничений: высокая зависимость от квалификации эксперта, межоператорный разброс, чувствительность к качеству травления и освещения, а также трудности воспроизводимого документирования результата.

В данной статье рассматривается практическая реализация системы автоматизированного анализа зеренной структуры стали на Python с использованием OpenCV. Цель разработки состояла не в замене стандартизованных методов их упрощённой цифровой имитацией, а в создании воспроизводимого инструмента, который позволяет приблизить лабораторный анализ к количественной обработке изображений и обеспечить прослеживаемость результата.

Читать далее

Манипулирование данными или как не дать графикам себя обмануть

Время на прочтение3 мин
Охват и читатели4.9K

Все новости, особенно те, которые основаны на данных нужно обязательно критически переосмыслять, часто данные правдивые, но показаны так, что скрывают проблему или недоговаривают о негативных динамиках.

Хочу рассказать как самому не попасться в эту ловушку и как неосознанно не создавать подобные датавизуализации, которые могут вводить читателей в заблуждение. Все антипримеры я брала из личного рабочего опыта или из реальных примеров, которые каждый день вижу в различных статьях и примерах.

Читать далее

Можно ли запустить корпоративную BI+ETL‑систему за 1,5 млн рублей? Часть 1: PolyAnalyst ETL+BI

Время на прочтение17 мин
Охват и читатели4K

Меня зовут Андрей Рыжик, я разработчик BI в компании «Белый код». В 2025 году мы столкнулись с частым запросом: бизнес хочет внедрить отечественную BI‑систему, при этом бюджет плюс‑минус 1,5 млн рублей. Мы решили изучить рынок и найти подходящее ПО, а заодно рассказать тем, кто тоже подбирает продукт, о результатах нашего исследования. В первом обзоре — PolyAnalyst. Подробно разбираю архитектуру, компоненты, источники данных, ETL‑пайплайны, визуализацию и так далее

Читать далее

Как маскировать персональные данные на изображениях: наш эксперимент с OCR и NER

Время на прочтение4 мин
Охват и читатели8.9K

Всем привет! Меня зовут Андрей Иванов, я NLP-исследователь в R&D red_mad_robot. Мы разрабатываем систему Guardrails для защиты персональных данных (PII) и фильтрации небезопасного контента.

В этой статье расскажу, как мы решали задачу точечного маскирования PII на картинках без обучения специальных визуальных детекторов. Разберём связку оптического распознавания символов (OCR) с NER-моделью, покажем метрики на реальных данных, раскроем ограничения подхода и наши решения для их преодоления.

Читать далее

Метрики здоровья команды: быстрая диагностика в период кризисов

Уровень сложностиПростой
Время на прочтение9 мин
Охват и читатели6.1K

Метрики здоровья команды: быстрая диагностика ИТ команды в период кризисов

Покажу как собрать единый дашборд метрик, которые быстро оценивают как эффективно работает ИТ команда.

Читать далее

Self-service аналитика для маркетинга: как мы упростили доступ к данным без необходимости знания SQL

Уровень сложностиПростой
Время на прочтение5 мин
Охват и читатели6K

В крупных компаниях доступ к данным доступен аналитикам и частично продактам, которые знают SQL, структуру данных, бизнес-логику расчёта метрик. В результате маркетинг, продукт, продажи и финансы зависят от аналитиков, которые превращаются в бутылочное горлышко.

В OLX, одна из моих зон ответственности — это эффективность привлечения трафика. У нас есть регулярный поток ad-hoc задач от маркетинга и финансов, требующих ресурсы дата-инжинеров и аналитиков. Мы хотели сократить эту зависимость и создать удобный интерфейс для получения ответов из уже существующего аналитического контура.

Так появилась идея Talk2Data — внутреннего AI-агента в Slack, который позволяет задавать вопросы к данным естественным языком и получать ответы без написания SQL.

Читать далее

Ближайшие события

Как платформенной команде за 10 минут узнать, что думают внутренние пользователи про её инструменты

Уровень сложностиПростой
Время на прочтение7 мин
Охват и читатели5.7K

Представьте: внутренняя команда аналитики завершила квартал и большой набор инициатив, все прошло по плану. Но тут же при подведении итогов возникает вопрос: «А наши внутренние пользователи заметили разницу? Это как-то повлияло на их работу?». В ответ получаем разрозненные отзывы: где-то похвалили, где-то пожаловались, а где-то вообще промолчали. 

В статье расскажу про решение, которое помогло команде платформы аналитики, а затем и целому департаменту аналитики в Туту системно собирать обратную связь и измерять пользовательский опыт. Поделюсь опытом, как нам удалось превратить разрозненные отзывы в систему и как мы заставили метрики «говорить».

Читать далее

Экспорт России 2020-2025. Сценарии 2026

Уровень сложностиПростой
Время на прочтение5 мин
Охват и читатели4.9K

Экспортная составляющая нашей страны крайне важна для экономики. Что именно продаем и как этот поток превращается в рублевую выручку внутри страны.

В долларах экспорт - это внешний контур: платежный баланс, импорт, давление/поддержка курса.

В рублях экспорт - это внутренний контур: выручка компаний, налоговая база, инвестиции, способность покупать оборудование и компоненты.

Предлагаю посмотреть на экспорт комплексно - сначала доллары, потом рубли, потом структура экспорта и возможные сценарии.

Я регулярно разбираю такие темы в своём Telegram-канале, если вам интересно глубже понимать аналитику и экономику и рынок труда, там регулярно выходят короткие заметки и практические примеры.

Читать далее

Наш «домашний» НИИ обошёл DINOv2, ViT и десятки ML‑моделей в сегментации видео

Уровень сложностиСредний
Время на прочтение18 мин
Охват и читатели6K

Мы открыли и разрабатываем новый способ обработки информации - TAPe (Theory of Active Perception, Теория активного восприятия). Работаем над ней давно, результаты мягко говоря впечатляющие, постепенно начинаем ими делиться. Немного писали о Теории на Хабре здесь. Исторически мы начали именно с обработки видео (когда-нибудь об этом расскажем).

В этой статье покажем результаты сравнения разных методов обработки видео (гистограммы, Фурье, структурной похожести, ML-модели) и TAPe в задаче сегментации видео. TAPe в области компьютерного зрения - это Майк Тайсон и/или Майкл Джордан среди любителей (хорошо, еще не Майк Тайсон, но уже вполне себе Рокки Бальбоа). На фоне методов Теории даже супер прокаченные модели на стероидах растерянно сидят в углу ринга. (Ладно, пока что это все влажные мечты, мы даже еще не вышли толком на ринг; но, как мы помним, главное – это величие замысла).

Читать как лажают ML с видео

Инструментарий аналитика данных: что реально нужно освоить в 2026 году

Уровень сложностиПростой
Время на прочтение5 мин
Охват и читатели15K

Аналитик данных сегодня –это не человек, который умеет просто выгружать данные и знает SQL и этого достаточно, сейчас это человек-оркестр, который умеет выбирать правильный инструмент под задачу, конечно, где-то может быть и достаточно Excel, а для каких-то задач уже нужен сложный запрос с оконными функциями, а где-то нужно собрать быстрый дашборд в Power BI, чтобы заказчик сам мог смотреть цифры.

В этой статье разберу реальный инструментарий аналитика – не тот, который пишут в идеальных вакансиях, а тот, который реально используется в работе.

Читать далее

Визуальный инспектор аудиографов на Web Audio API: мотивация создания, детали реализации и размышления о стандарте

Уровень сложностиПростой
Время на прочтение11 мин
Охват и читатели7.2K

Всем привет! Меня зовут Александр Григоренко, я фронтенд-разработчик и создатель Web Audio Studio — браузерного инструмента для визуализации и исследования аудиографов на Web Audio API. В этой статье я хочу поделиться историей разработки этого проекта, техническими деталями и особо интересными инженерными вызовами, с которыми я столкнулся в процессе его создания. Кроме того, я выскажу свои мысли о Web Audio API, о том, почему этот стандарт недооценен у веб-разработчиков и что с этим можно сделать (спойлер: во многом ему не хватает хорошего инструментария для разработки и отладки).

Читать далее

Почему селлеры на маркетплейсах не понимают, прибыльны ли они на самом деле

Уровень сложностиПростой
Время на прочтение5 мин
Охват и читатели20K

Как понять, что ваш маркетплейс-бизнес уже убыточен: 5 вопросов, которые должен задать себе каждый селлер 

Я, Ирина Чекулаева, люблю BI и многие годы занимаюсь построением систем бизнес-аналитики. К Международному женскому дню хочу рассказать историю про платья. Но на самом деле это история про архитектуру и аналитику данных. Она началась с того, что в какой-то момент селлеры поняли, что продавать через маркетплейсы - это не значит просто загрузить товар и получить деньги.

Бренды и предприниматели массово заходили на Wildberries и Ozon с ощущением, что сейчас будут «золотые горы». И правда, сначала выручка росла, продажи увеличивались, и казалось, вот оно - бизнес-счастье.

Проблема проявилась позже. Оборот растет, производство работает на полную мощность. А где прибыль?

Читать далее

Можно ли собрать BI-дашборды за 4 часа, если ты не аналитик? Эксперимент с MCP, PostgreSQL и Modus BI

Уровень сложностиСредний
Время на прочтение9 мин
Охват и читатели6.5K

Привет, Хабр! Я Дмитрий Клепиков, разработчик в команде Modus BI. Хотя моя основная работа напрямую не связана с аналитикой данных, мне стало интересно: может ли разработчик без профильного опыта пройти весь путь аналитика — от гипотез до BI-дашбордов — используя только LLM и MCP-серверы?

Для проверки я взял открытую статистику ДТП Санкт‑Петербурга за 10 лет, подключил MCP‑серверы и составил Skill‑файлы для Claude Code, чтобы автоматизировать визуализацию. За 4 часа получилось собрать три дашборда, выполнить около 80 SQL-запросов и проверить 15 гипотез. Вот что из этого вышло...

Читать далее
1
23 ...