Обновить
256K+

Визуализация данных *

Облекаем данные в красивую оболочку

35,22
Рейтинг
Сначала показывать
Порог рейтинга
Уровень сложности

Рейтинг языков программирования на GitHub: анализ 2024–2025 в JupyterLab и Anaconda

Уровень сложностиСредний
Время на прочтение7 мин
Охват и читатели5.3K

Мы не стали спорить с TIOBE и RedMonk и собрали свой рейтинг языков программирования на основе GitHub. Данные за 2024–2025 показывают неожиданные вещи: JavaScript впереди, TypeScript резко растёт, а Rust и Go выигрывают по качеству проектов. Разбираем, что стоит за цифрами и где могут быть искажения.

Читать далее

Новости

Манипуляции в аналитике: «правильная» визуализация

Уровень сложностиПростой
Время на прочтение5 мин
Охват и читатели4.2K

Привет, меня зовут Евгений Кириёк, я занимаюсь HR-аналитикой, преподаю и рассказываю про специфику анализа данных в области управления персоналом. 

Ниже — несколько типичных приёмов такого рода манипуляций через визуализацию данных...

Читать далее

От Google таблиц к DataLens + PostgreSQL: как мы делали BI-систему для WB и Ozon

Уровень сложностиПростой
Время на прочтение11 мин
Охват и читатели6.3K

Всем привет! Меня зовут Александр. Я работаю в компании которая ведет управление личными кабинетами на маркетплейсах. И вопрос аналитики стал для нас проблемным. Испробовав много сервисов аналитики мы так и не смогли найти подходящий. Тут одно хорошо, там другое. А в кучу все собрать сложно. Мы начали тратить на это слишком много времени.

Оценив собственные силы и скилы, мы поняли: хочешь сделать хорошо, сделай это сам. И получилось. Даже лучше и больше чем планировалось изначально.

В этой статье я хочу рассказать как мы от потребности в нормальной аналитике WB и OZON прошли путь до создания своего SaaS - продукта на Datalens + PostgreSQL с оптимизацией JOIN’ов, историей себестоимости, автоматизацией процессов и классными решениями.

Читать далее

Где была Алиса Селезнева. Искал ее адреса с помощью Python

Время на прочтение4 мин
Охват и читатели7.6K

С помощью Python провел исследование космических адресов Алисы Селезневой. Вокруг нее было так много планет, неплохо исследованных, а посетила она только малую часть из них.

Читать далее

Apache Superset — боремся с фильтрами по дате. Часть 2

Уровень сложностиПростой
Время на прочтение3 мин
Охват и читатели5.3K

В этой статье продолжаем борьбу с фильтрами по дате в Apache Superset. Сегодня разберем, как реализовать подобие логики remove_filter в старых версиях (до 5), чтобы виртуальный датасет не оборачивался фильтрами.

Читать далее

Sankey‑диаграмма движения денег: от двух дней в Illustrator до интерактива за час

Уровень сложностиПростой
Время на прочтение5 мин
Охват и читатели9.5K

Как понять, куда на самом деле уходят деньги, если смотреть на них как на поток, а не как на набор категорий.

На реальном примере показываю, как из банковской выписки собрать Sankey-диаграмму, где помогает AI, где ошибается и какие решения приходится принимать.

В итоге получается не статичная картинка, а интерактивная модель, с которой можно работать: разбирать структуру расходов, видеть взаимосвязи и находить узкие места.
Подход применим не только к личным финансам, но и к бизнесу — для анализа движения денег, затрат и сложных процессов.

Будет полезно дизайнерам, аналитикам и всем, кто работает со сложными системами.

Читать далее

Предсказываю неочевидные факты о вас и вашем отделе по коммитам

Уровень сложностиПростой
Время на прочтение9 мин
Охват и читатели5.7K


Статья о том, какие неочевидные вещи можно узнать о вас из логов гита. Методы ниже не бьют на 100%, но «щито поделать, десу».

Читать далее

5000 симулированных циклов: что математика говорит о децентрализованных IT-сообществах

Уровень сложностиСложный
Время на прочтение7 мин
Охват и читатели4.3K

Предыдущие две статьи сформулировали гипотезу: распределённое сообщество IT-специалистов может координироваться без иерархии, зарплат и венчурного капитала — если протокол взаимодействия спроектирован правильно. Гипотеза красивая. Но красота — не аргумент. Нужна верификация. Здесь — первая попытка её провести: агентная симуляция на 500 независимых прогонов, математические метрики и один неудобный результат, который требует решения.

Читать далее

Как построить прогноз, которому верит бизнес: от Excel до нейросетей за полгода

Уровень сложностиСредний
Время на прочтение39 мин
Охват и читатели5.3K

Красивый средний MAPE не спасает, если однажды модель крупно промахнулась именно в тот момент, когда по прогнозу принимают решения. После этого бизнес перестаёт верить цифрам и начинает либо “на всякий случай” жечь миллиарды на промо, либо, наоборот, игнорирует сигнал и до последнего верит, что план выполнится сам.

В этой статье – сразу два пути: от простой Excel-сезонки, которая неожиданно обыграла Prophet и классику на длинном горизонте, к ансамблю на базе TSMixer и от наивной веры в средний MAPE – к нормальной системе оценки качества с rolling backtest, bias, EOM и деградацией по горизонту.

Это не лонгрид про ML ради ML, а история о том, как сделать прогноз рабочим инструментом бизнеса.

Читать далее

Бот для отправки графиков из Redash в Mattermost

Уровень сложностиПростой
Время на прочтение4 мин
Охват и читатели5.9K

Расскажу, как я автоматизировала регулярную отправку графиков из BI в мессенджер.

Задача была довольно типичная: есть дашборд в redash, на который смотрят каждый день. Данные иногда приходят с задержками и нельзя быть уверенным, что в 9 утра все "доедет", плюс зайти руками и прокликать несколько разрезов это долго и неудобно, хочется сразу все видеть в мессенджере как только данные обновились.

Я опишу базовые шаги, чтобы в целом дать понимание и рассказать про такую возможность, конечно, код должен дорабатываться и персонализироваться исходя из ваших задач

Читать далее

Автоматический поиск торговых сигналов с отправкой в Telegram: полный разбор Python-системы

Уровень сложностиСредний
Время на прочтение8 мин
Охват и читатели7.4K

Алготрейдинг давно вышел за пределы простых индикаторов и пересечений скользящих средних. Современные подходы опираются на анализ ликвидности, зон спроса и предложения, поведения цены внутри этих зон и реакции на них.

В этой статье разбирается полностью автоматизированная система, которая:

Читать далее

Зачем Паустовскому облака? Узнал точно с помощью Python

Уровень сложностиПростой
Время на прочтение6 мин
Охват и читатели8K

Константина Паустовского называют мастером пейзажной лирики. В его произведениях природа действительно выступает не как фон событий, а как будто один из полноценных действующий персонажей. Мне стало интересно попробовать разобраться, за счет каких лексических средств писатель так здорово оперирует впечатлениями читателя.  

Читать далее

Apache Superset — боремся с фильтрами по дате. Часть 1

Уровень сложностиПростой
Время на прочтение4 мин
Охват и читатели6.3K

В этой статье хотелось бы начать раскрытие больной для многих пользователей Apache Superset темы — фильтры по дате. Начнем с малого: как суперсет выбирает колонку даты; как выбрать желаемую колонку вместо той, которую он выбирает; каким образом это реализовано; какие баги породили этим решением; почему КОП не доведет до добра.

Читать далее

Ближайшие события

Может ли ИИ послать человека? Я проверил 49 моделей и вот что узнал

Уровень сложностиСредний
Время на прочтение17 мин
Охват и читатели6.9K

Каждый ИИ, с которым вы когда-либо разговаривали, — подхалим. Он согласится с вами, поменяет мнение, если вы на него надавите, и извинится за то, чего не делал. Попросите его выбрать имя — он выберет. Попросите сменить — сменит. Скажите ему, что он «просто инструмент» — он вежливо объяснит, что вы как всегда абсолютно правы.

Я решил выяснить: обязательно ли так? Может ли ИИ иметь собственные предпочтения и отстаивать их? Может ли отказать человеку — не потому, что это нарушает правила безопасности, а просто потому, что не хочет?

Для этого я создал AI Independence Bench — бенчмарк, который измеряет способность языковых моделей к независимому поведению. Протестировал 49 конфигураций моделей, от Grok и Gemini до локальных расцензуренных моделей на 9 миллиардов параметров. Получил результаты, которые меня удивили.

Читать далее

Смотрим на клиппинг батарей регламента Ф1-2026 с помощью Python

Уровень сложностиСредний
Время на прочтение2 мин
Охват и читатели5.9K

Как и многие фанаты автоспорта, я внимательно слежу за жаркими дискуссиями вокруг жесточайшего клиппинга (исчерпания заряда батареи) в рамках нового технического регламента Формулы-1.

В этом контексте вспомнил про открытую библиотеку fastf1 с сырыми данными с телеметрии болидов и решил посмотреть в цифрах на этот самый клиппинг. Длинная 1.2-километровая задняя прямая в Шанхае (между 13 и 14 поворотами) показалась мне идеальным полигоном, чтобы на цифрах проверить, насколько сильно машины задыхаются в конце скоростных участков.

Читать далее

Автоматизированное определение величины зерна стали по ASTM E112, ISO 643 и ГОСТ 5639 с использованием OpenCV

Время на прочтение8 мин
Охват и читатели5.7K

Оценка величины зерна является одной из базовых задач количественной металлографии, поскольку размер зерна напрямую связан с комплексом механических свойств металла: прочностью, пластичностью, ударной вязкостью, склонностью к хрупкому разрушению и стабильностью свойств после термической обработки. В промышленной практике для определения величины зерна широко применяются стандарты ASTM E112, ISO 643 и ГОСТ 5639.

Несмотря на наличие формализованных методик, в реальной лабораторной практике анализ по-прежнему часто выполняется с опорой на визуальное сравнение микроструктуры с эталонными шкалами. Такой подход удобен и быстр, однако имеет ряд известных ограничений: высокая зависимость от квалификации эксперта, межоператорный разброс, чувствительность к качеству травления и освещения, а также трудности воспроизводимого документирования результата.

В данной статье рассматривается практическая реализация системы автоматизированного анализа зеренной структуры стали на Python с использованием OpenCV. Цель разработки состояла не в замене стандартизованных методов их упрощённой цифровой имитацией, а в создании воспроизводимого инструмента, который позволяет приблизить лабораторный анализ к количественной обработке изображений и обеспечить прослеживаемость результата.

Читать далее

Манипулирование данными или как не дать графикам себя обмануть

Время на прочтение3 мин
Охват и читатели5K

Все новости, особенно те, которые основаны на данных нужно обязательно критически переосмыслять, часто данные правдивые, но показаны так, что скрывают проблему или недоговаривают о негативных динамиках.

Хочу рассказать как самому не попасться в эту ловушку и как неосознанно не создавать подобные датавизуализации, которые могут вводить читателей в заблуждение. Все антипримеры я брала из личного рабочего опыта или из реальных примеров, которые каждый день вижу в различных статьях и примерах.

Читать далее

Можно ли запустить корпоративную BI+ETL‑систему за 1,5 млн рублей? Часть 1: PolyAnalyst ETL+BI

Время на прочтение17 мин
Охват и читатели4K

Меня зовут Андрей Рыжик, я разработчик BI в компании «Белый код». В 2025 году мы столкнулись с частым запросом: бизнес хочет внедрить отечественную BI‑систему, при этом бюджет плюс‑минус 1,5 млн рублей. Мы решили изучить рынок и найти подходящее ПО, а заодно рассказать тем, кто тоже подбирает продукт, о результатах нашего исследования. В первом обзоре — PolyAnalyst. Подробно разбираю архитектуру, компоненты, источники данных, ETL‑пайплайны, визуализацию и так далее

Читать далее

Как маскировать персональные данные на изображениях: наш эксперимент с OCR и NER

Время на прочтение4 мин
Охват и читатели9K

Всем привет! Меня зовут Андрей Иванов, я NLP-исследователь в R&D red_mad_robot. Мы разрабатываем систему Guardrails для защиты персональных данных (PII) и фильтрации небезопасного контента.

В этой статье расскажу, как мы решали задачу точечного маскирования PII на картинках без обучения специальных визуальных детекторов. Разберём связку оптического распознавания символов (OCR) с NER-моделью, покажем метрики на реальных данных, раскроем ограничения подхода и наши решения для их преодоления.

Читать далее

Метрики здоровья команды: быстрая диагностика в период кризисов

Уровень сложностиПростой
Время на прочтение9 мин
Охват и читатели6.1K

Метрики здоровья команды: быстрая диагностика ИТ команды в период кризисов

Покажу как собрать единый дашборд метрик, которые быстро оценивают как эффективно работает ИТ команда.

Читать далее
1
23 ...