Всем привет! Меня зовут Максим Шаланкин, и я веду несколько образовательных блоков в нашей школе аналитиков данных в МТС. Сегодня я хочу рассказать, как мы организовали необычное занятие по анализу данных: в нем студенты соревновались за звание лучшего в игре, напоминающей Tinder, но для графиков предварительного анализа (EDA). Эта активность не только помогла освоить ключевые навыки визуализации, но и сделала процесс обучения увлекательным и запоминающимся, демонстрируя практическую значимость качественного анализа данных.
В этом материале я расскажу, как мы вообще обучаем EDA, какие нюансы есть в процессе и как мы делаем его интересным с помощью игры. История и графики победителей под катом.

Работа с данными — фундамент успешного применения ML
Их качество напрямую определяет эффективность модели, и без глубокого понимания их структуры невозможно добиться значимых результатов. Есть известная фраза: «Garbage in — garbage out». Она точно отражает ключевую истину: если данные содержат ошибки или не соответствуют целям задачи, даже самая сложная ML-модель покажет плохой результат.
Представьте, что вы обучаете модель для предсказания спроса на товары, но ваши данные содержат пропущенные значения, аномалии или неверные категории. Без качественного EDA такие проблемы останутся незамеченными, что неизбежно приведет к провалу проекта. Именно поэтому мы уделяем особое внимание обучению студентов методам анализа данных — это критически важный навык для любого специалиста в нашей области.
EDA помогает избежать проблем на ранних этапах работы с ML-моделью
Визуальная оценка и интерпретация данных остаются одним из самых эффективных подходов на начальном этапе анализа. Они позволяют быстро выявить аномалии, пропуски или выбросы, которые могут существенно повлиять на качество модели. Например, простое построение гистограммы распределения признаков может мгновенно показать наличие смещения или выбросов, требующих дополнительной обработки.
Без EDA невозможно понять, насколько данные подходят для решения поставленной задачи, какие преобразования необходимо выполнить и чего следует избегать. EDA помогает выявить такие проблемы:
Неполные данные. Пропуски или некорректные значения легко обнаруживаются через визуализацию или статистический анализ, что позволяет своевременно принять решение об их обработке.
Выбросы. Аномалии могут существенно исказить результаты модели, особенно если используются алгоритмы, чувствительные к экстремальным значениям.
Смещение данных. Критически важно выявить, если данные из разных временных периодов отличаются распределением (concept shift). Это может привести к неработоспособности модели на новых данных.
Скоррелированные признаки. Высокая корреляция между переменными приводит к мультиколлинеарности и ухудшению интерпретируемости модели.
Таким образом, качественный EDA значительно снижает риски ошибок на более поздних этапах разработки, экономит время команды и повышает надежность итоговых решений.
В нашей школе мы тренируем студентов двум взаимодополняющим подходам к работе с данными
Визуальная оценка включает:
построение различных типов графиков (гистограммы, scatter plot, box plot, heatmap и др.) для выявления паттернов в данных;
интерпретацию визуальных паттернов и поиск аномалий;
обсуждение тонкостей восприятия информации разными людьми и выбор оптимальных способов визуализации;
выделение ключевых инсайтов через правильно подобранную визуализацию;
создание информативных дашбордов для комплексного анализа данных.
Численная оценка включает:
анализ распределения признаков с помощью статистических критериев (Колмогорова-Смирнова, Шапиро-Уилка и др.);
оценку смещения признаков (concept shift, data shift) между различными выборками;
использование методики adversarial validation для проверки схожести обучающей и тестовой выборок;
выявление выбросов через z-оценки, межквартильный диапазон или алгоритмические методы;
анализ корреляций и взаимосвязей между признаками.
Мы также уделяем особое внимание автоматизации анализа данных через современные инструменты Python (Pandas Profiling, Sweetviz, Dataprep), чтобы студенты могли быстро получать базовые результаты анализа и сосредоточиться на их интерпретации и принятии решений.
Изучение EDA — критически важный этап для любого проекта на основе данных
От качества предварительного анализа зависит вся дальнейшая работа с моделью или аналитическим отчетом, а также конечный результат проекта. Если не уделить достаточно внимания изучению основных методов и техник работы с данными в учебном блоке по EDA, то есть риск упустить важные особенности, которые могут привести к провалу проекта еще до его старта.
На первом уроке студенты осваивают базовые подходы:
Построение простых, но информативных графиков для первичного анализа.
Методы получения внешних открытых данных (API, парсинг, работа с открытыми источниками).
Первичная обработка и анализ собранной информации.
Выявление основных проблем в данных и их документирование.
На втором уроке мы переходим к продвинутым техникам:
Автоматизация процессов с использованием специализированных библиотек (plotly, dash, shap и другие).
Комплексная работа с проблемами в датасете (стратегии обработки пропусков, выбросов и несбалансированных данных).
Разбор реальных кейсов и поиск оптимальных решений в них.
Создание полноценного EDA-отчета, который станет основой для дальнейшей работы с данными.
Такой двухэтапный подход помогает студентам не только освоить теорию, но и приобрести практические навыки, которые они смогут немедленно применить в реальных проектах. А еще мы очень любим добавлять в наши занятия различные форматы геймификации. И в этом году попробовали кое-что действительно интересное — EDA Tinder.
Делаем обучение интересным с помощью геймификации
Задача участников заключалась в создании пяти информативных и привлекательных графиков для EDA. После этого мы организовали масштабное голосование через Telegram-бота.
Бот последовательно показывал участникам из общего пула работ два случайных графика, а каждый голосующий выбирал более информативный и качественный. Этот цикл повторялся многократно, обеспечивая множество сравнений между разными парами. Битва продолжалась три дня: за это время мы собрали несколько тысяч голосов, что обеспечило статистическую значимость результатов. Так мы не только определили лучшие работы, но и выявили ключевые характеристики, которые делают визуализацию данных эффективной.
Этот подход к обучению отлично зашел у студентов, вызвал здоровую конкуренцию и мотивировал создавать действительно качественные графики. Кроме того, процесс голосования сам по себе стал обучающим — студенты анализировали работы друг друга и формировали собственное понимание того, что делает график эффективным.
Победители этого года
Для битвы студенты выбирали самые интересные по их мнению данные и проводили их анализ. Именно поэтому результаты оказались такими разнообразными и уникальными.
Вот эти десять визуализаций были признаны лучшими:
График 1

Здесь мы видим необычный вариант barplot, который отцентрирован и отсортирован по границе двух категорий. Такая техника закладывает дополнительный смысл и позволяет делать выводы намного быстрее, нежели стандартный подход к построению barplot.
График 2

Здесь автор сделал отличный heatmap корреляции показателей, который легко читать из-за однозначного посыла.
График 3

Эта визуализация содержит в себе очень много полезной информации. При этом студенту удалось сохранить читаемость графика.
Еще несколько победителей битвы







Рецепт идеального графика EDA
На основе результатов битвы и нашего личного опыта мы сформулировали ключевые характеристики идеального аналитического графика, которые также были отражены и в работах наших победителей:
Однозначный посыл. График должен четко отвечать на конкретный вопрос или демонстрировать ключевую информацию без двусмысленностей. По нему можно сразу понять, какой инсайт передает визуализация.
Информативные подписи. Все оси, элементы и легенды должны быть четко подписаны. В названии нужно отразить суть, а не просто перечислить показанные переменные.
Оригинальность подхода. Нестандартный, но уместный вариант визуализации делает график запоминающимся и позволяет взглянуть на данные под новым углом.
Сбалансированность информации. График должен содержать достаточно данных для полноценного анализа, но при этом не быть перегруженным лишними деталями, которые отвлекают от основного посыла.
Контекстуальная релевантность. Хорошая визуализация соответствует решаемой задаче и учитывает специфику своей предметной области.
Интуитивно понятные цвета. Они должны усиливать восприятие информации, а не затруднять его.
Масштабируемость. График должен хорошо восприниматься как на большом экране, так и на мобильных устройствах, сохраняя читаемость всех элементов.
Интерактивность. Хорошо работают интерактивные элементы (фильтры, всплывающие подсказки) — они заметно повышают информативность.
Применение этих принципов позволяет создавать визуализации, которые не только эффективно передают информацию, но и делают процесс анализа данных более интуитивным и продуктивным.
Что мы поняли по итогам битвы
Наш опыт EDA Tinder показал, что геймификация и соревновательный элемент повышают вовлеченность студентов и качество их работы. Такой подход не только делает обучение увлекательным, но и формирует практические навыки, которые можно применить в реальных проектах.
EDA — фундаментальный этап работы с данными в любой задаче: от построения моделей машинного обучения до создания аналитических отчетов и принятия бизнес-решений. Глубокое понимание структуры данных помогает избежать критических ошибок, выявить скрытые закономерности и существенно повысить эффективность всего проекта.
Зная, как проводить качественный EDA, вы будете эффективно использовать данные для построения надежных моделей машинного обучения, создания информативных аналитических отчетов и принятия обоснованных бизнес-решений. Главное — всегда помнить о том, что качественная работа с данными начинается с их глубокого изучения и правильной интерпретации, а визуализация — это мощный инструмент, позволяющий увидеть ценные инсайты.