Pull to refresh
25
Максим@MaximML

Machine Learning Team Lead, автор канала @ml_maxim

7
Rating
24
Subscribers
Send message

15 приемов EDA на Python, которые работают лучше красивого дизайна

Level of difficultyEasy
Reading time20 min
Reach and readers12K

Каждый раз, когда вы делаете EDA, вы стоите перед выбором: нарисовать быстрый df.plot() - или потратить 10-20 минут на оформление, которое скажет что-то важное про ваши данные. В нашем курсе в МТС Школа Аналитиков Данных мы проверили этот выбор экспериментально: 44 студента сделали 220 EDA-графиков, мы получили 6000 попарных сравнений и проанализировали через CrowdBT. (кстати, уже второй раз!) Результат: победители используют не больше данных, а больше контекста. Фоновые зоны, медианы, адаптивная перекраска, inset-axes - именно эти приёмы отличают скучный график от графика, который меняет решения.

В статье - cookbook из 15 рецептов с кодом "до" и "после" на python. Данные - встроенный seaborn.load_dataset("diamonds"), копируйте, запускайте, вдохновляйтесь.

Погрузиться в мир визуализации данных

7 pet-проектов с LLM: приватность, скорость и безопасность своими руками

Level of difficultyEasy
Reading time5 min
Reach and readers14K

Зачем всё это?

В последние годы NLP развивается так быстро, что собрать LLM‑систему стало почти так же просто и естественно, как поднять веб‑сервис или собрать пайплайн данных. И всё же логичный вопрос: зачем делать что-то с нуля, если есть готовые SaaS и open-source решения, которые уже просто работают из коробки?

Потому что готовые решения обычно оптимизированы под средний сценарий, а реальный мир почти всегда про частные ограничения: приватность данных, стоимость инференса, задержки, нестандартные источники знаний, требования безопасности и воспроизводимость.

Pet‑проект - это способ руками потрогать ключевые узлы современного LLM‑стека и понять, где именно рождаются качество, скорость и риски. В этой подборке я собрал направления, которые сам считаю самыми обучающими и практически применимыми в 2026 году. В каждом пункте: что строим, зачем, минимальный план и что получится на выходе.

Читать далее

Автоматизация фоновой аналитики в финтехе с помощью background LLM‑агента: реальный опыт

Level of difficultyMedium
Reading time11 min
Reach and readers5.5K

Всем привет, меня зовут Максим Шаланкин, Machine Learning Team Lead в команде финтеха Big Data MWS. Внутренняя аналитика в финтехе живет в режиме постоянной гонки: новые клиенты приходят, ведут себя по‑разному, а бизнесу нужно быстро понимать, чем группы с разными сценариями отличаются друг от друга. При этом значительная часть работы аналитика — это однотипное сравнение когорт и поиски закономерностей в табличках и графиках. Фоновый LLM‑агент, который умеет сам поднимать данные, запускать статистические проверки и возвращать готовые инсайты, заметно сокращает путь от данных до решения.

Под катом — разбор, как устроен такой background‑агент для анализа активности новых клиентов, на чем он основан, как мы минимизируем галлюцинации и почему выбрали архитектуру, похожую на Claude Skills, а не идем в сторону MCP‑подхода.

Читать далее

Как создать AI-аналитика во время учебы: кейс выпускного проекта студентов Школы аналитиков данных МТС

Reading time7 min
Reach and readers6.6K

Привет, Habr! На связи Максим Шаланкин из команды Школы аналитиков данных МТС. Каждый год наши студенты в качестве итогового проекта решают реальные бизнес-задачи, и этот не стал исключением. Четверо выпускников — Анна Шестакова, Григорий Суханов, Михаил Футьянов, Алексей Жданов — создали InsightFinder, мультиагентную систему для автоматического анализа данных (EDA). Этот проект автоматизирует EDA и бизнес-интерпретацию данных, сокращая рутинный процесс с нескольких часов до пяти минут. 

Добавление бизнес-интерпретации повышает вариативность использования: проект становится полезным инструментом как для специалистов Data Scientist или Data Analyst, так и для менеджеров, которые занимаются развитием продуктов и которым нужна быстрая проверка гипотез.

В этом материале я не только покажу результат работы ребят, но и дам подробное руководство, как создать такое решение самостоятельно. Это будет полезно всем, кто интересуется применением LLM в аналитике, мультиагентными системами и следит за развитием анализа данных.

Читать далее

Perplexity под капотом: архитектура AI-песочницы

Level of difficultyMedium
Reading time6 min
Reach and readers7.3K

Каждый, кто работает с AI, рано или поздно сталкивается с его ограничениями. Недавно я столкнулся с такой ситуацией: Perplexity успешно проанализировал сайт и собрал все ссылки, но отказался их обработать, сославшись на «превышение лимитов ресурсов». Что это за «лимиты» в облачной системе, обладающей, казалось бы, бесконечными мощностями? Этот, на первый взгляд, рядовой сбой стал отправной точкой для технического исследования: я решил заглянуть «под капот» AI-песочницы, чтобы понять, как она на самом деле устроена и почему знание ее архитектуры помогает работать с ней гораздо эффективнее

Читать далее

Учим ai-агента ориентироваться на местности: кастомный tool на python и overpass (OSM)

Level of difficultyMedium
Reading time5 min
Reach and readers7.1K

Привет, Хабр!

Современные AI-агенты уже умеют планировать отпуск, писать код, и совершать покупки в интернете, но поставьте их перед простым вопросом «где лучше снять квартиру рядом с метро и школой» - и они начинают галлюцинировать. Они не понимают, что «5 минут до метро» и «500 метров по прямой через реку» - совершенно разные вещи. В результате пользователь получает красивые, но бесполезные советы

Этот проект покажет, как добавить агенту «глаза» для карты, чтобы он мог реально находить ближайшие кафе около парков, считать расстояние пеших прогулок и показывать результаты прямо на интерактивной карте

Читать далее

Анализ данных: от EDA до Tinder-битвы графиков

Reading time6 min
Reach and readers3.4K

Всем привет! Меня зовут Максим Шаланкин, и я веду несколько образовательных блоков в нашей школе аналитиков данных в МТС. Сегодня я хочу рассказать, как мы организовали необычное занятие по анализу данных: в нем студенты соревновались за звание лучшего в игре, напоминающей Tinder, но для графиков предварительного анализа (EDA). Эта активность не только помогла освоить ключевые навыки визуализации, но и сделала процесс обучения увлекательным и запоминающимся, демонстрируя практическую значимость качественного анализа данных.

В этом материале я расскажу, как мы вообще обучаем EDA, какие нюансы есть в процессе и как мы делаем его интересным с помощью игры. История и графики победителей под катом.

Читать далее

Топ 6 идей для ваших ML pet-проектов в 2025 году

Reading time9 min
Reach and readers9.9K

Новый год — это идеальное время для перезагрузки и новых начинаний. Это уникальная возможность не только подвести итоги прошедшего года, но и заложить фундамент для будущих достижений. Если вы давно мечтали о собственном проекте в области машинного обучения, сейчас самое подходящее время, чтобы воплотить эту идею в жизнь.

погрузиться в мир pet-проектов

Ошибайся смело: жизненные уроки из мира machine learning

Reading time6 min
Reach and readers6K

Всем привет, меня зовут Максим Шаланкин, Data Science Team Lead в команде Финтеха Big Data МТС. На ошибках учатся, и это не просто слова. Идея данного поста возникла из моих ежедневных наблюдений: многие люди вокруг остро реагируют на свои ошибки и теряют мотивацию из-за неудач. Я хочу показать, что промахиваться — нормально и даже полезно для будущего профессионального роста.

А сделаю я это на примере machine learning — сферы, в которой у меня широкая экспертиза. Между обучением человека и алгоритма ML больше общего, чем может показаться на первый взгляд. В этом тексте я проведу параллели и сравню различные жизненные ситуации и процессы обучения ML-алгоритмов.

Читать далее

Семь каверзных вопросов от преподавателей школы аналитиков данных МТС

Reading time6 min
Reach and readers15K

Привет, Хабр! Меня зовут Максим Шаланкин, я вместе со своими коллегами — преподавателями в Школе аналитиков данных от МТС — подготовил семь каверзных вопросов, с которыми могут столкнуться начинающие специалисты в области Data Science, ML и Big Data. Ну что, поехали!

Читать далее

Быстрая Data Quality проверка на базе алгоритма adversarial validation

Reading time10 min
Reach and readers8.7K

Привет, Хабр! Всем привет, меня зовут Максим Шаланкин, я Data Science Team Lead в команде Финтеха Big Data МТС. Из этой статьи вы узнаете, как оценивать качество данных при помощи алгоритма adversarial validation с использованием spark user defined function. В частности, я расскажу, почему такой подход хорошо масштабируется и может быть успешно применен к различным типам данных, становясь универсальным инструментом для встраивания в ваши продуктовые процессы. Все подробности — под катом. 

Читать далее

Куда поехать в пятницу вечером, если ты в Питере. Сравнение алгоритмов геокластеризации

Reading time7 min
Reach and readers7.8K

Всем привет, меня зовут Максим Шаланкин, в Ситимобил я занимаюсь машинным обучением. Мы постоянно принимаем решения на основе больших данных. Даже в пятницу вечером мы доверяем алгоритмам выбор места отдыха. А кто же, если не наши клиенты, лучше всего знают, где в Санкт-Петербурге можно хорошо отдохнуть?

Врууум

Геоанализ этажности Санкт-Петербурга алгоритмом KDE, или Как меняется облик города

Reading time4 min
Reach and readers4.5K

Всем привет, меня зовут Максим Шаланкин, в Ситимобил я занимаюсь машинным обучением. Мы используем множество крутых алгоритмов для оптимизации наших сервисов и улучшения бизнес-процессов. В этой публикации я расскажу, как использовать в геоаналитике алгоритм ядерной оценки плотности (Kernel Density Estimation) и строить полигоны на карте, основываясь на распределении географических данных.

Врууум

Жизненный цикл ML-модели

Reading time4 min
Reach and readers16K

Всем привет! Меня зовут Максим, и в Ситимобил я занимаюсь машинным обучением. Сегодня я расскажу вам, как мы разрабатываем устойчивые ML-модели в суровых условиях изменчивого мира.

Врууум

Information

Rating
1,142-nd
Registered
Activity