Краткий гид: от хаоса к профессиональной разработке моделей машинного обучения
Привет! Я Максим Катрушенко, главный специалист по анализу данных и машинному обучению в ПГК Диджитал. В свое предыдущей статье я разбирал ошибки в резюме джунов (и не только), которые снижают шансы попасть в ML. Сегодня расскажу про полезные инструменты data scientist'а, чтобы лучше адаптироваться в специальности.
Введение
Недавно мне показали проект по прогнозированию ремонта вагонов. Несколько десятков параметров, миллионы записей. Всё решение — один файл Jupyter Notebook и пара скриптов.
Я открыл этот файл. Две тысячи строк кода. Названия переменных вроде df_tmp_final_v3. Комментарии на смеси русского и английского. Сохранённые модели назывались model_good.pkl и model_production_maybe.pkl. Некоторые ячейки кода было страшно запускать. Ни документации, ни записи о проведённых тестах.
Узнаёте? Это частая реальность в области данных.
Вы не одиноки
Многие начинающие специалисты задают похожие вопросы:
Как работать, когда тестов уже несколько десятков? Вы перебираете настройки и алгоритмы, но через неделю не можете вспомнить, что дало лучший результат.
Как потом повторить этот результат? Модель обучена, показатели хорошие, но через месяц невозможно восстановить, на каких именно данных и с какими параметрами это было сделано.
Как быстро подобрать настройки модели? Полный перебор работает часами. Случайный поиск быстрее, но всё равно медленный.
Как внедрить модель? В Notebook всё работает, но как превратить её в сервис, который сможет использовать ваше приложение?
Хорошая новость: для этих проблем уже есть решения. Плохая: на курсах или в университетах о них часто не говорят.
План действий: что мы рассмотрим
1. AutoML (автоматизированное машинное обучение) — для быстрого создания рабочих моделей.
H2O: мощность и универсальность.
FLAML: простота и скорость.
AutoGluon: высокое качество «из коробки».
2. Системы учёта экспериментов — чтобы ничего не забывать.
ClearML: максимальная автоматизация.
MLflow: простота и гибкость.
3. MLOps (операционализация машинного обучения) — путь модели в рабочий режим.
BentoML: от Notebook к работающему сервису за 10 минут.
Docker: изоляция и воспроизводимость среды.
Часть 1. AutoML — когда результат нужен быстро
Зачем это нужно?
Допустим, вы обучаете модель. Random Forest, XGBoost, CatBoost — какой алгоритм лучше? У каждого десятки настроек. Полный перебор всех вариантов займёт дни.
Вас учили, что нужно «понимать каждый параметр». Это верно. Но в реальной работе есть сроки, и нужен конкретный результат.
AutoML — это не «волшебная кнопка», которая заменит специалиста. Это инструмент, который берёт на себя рутинный подбор, пока вы сосредотачиваетесь на качестве данных, создании новых признаков и бизнес-логике.

Инструмент 1: FLAML
Что это?
Библиотека от Microsoft Research. Её философия — получить хорошую модель, потратив как можно меньше вычислительных ресурсов.
Как это работает?
FLAML использует умную стратегию поиска. Он оценивает не только потенциальное улучшение точности мод��ли, но и стоимость (время) каждого следующего теста.
Представьте:
Вариант А: может улучшить точность на 0.03, но для проверки нужно 60 минут.
Вариант Б: улучшит точность на 0.02, но проверится за 5 минут.
FLAML выберет вариант Б, потому что за те же 60 минут можно сделать 12 таких быстрых тестов и в сумме узнать больше. Он начинает с простых моделей и постепенно усложняет их, останавливаясь, когда дальнейшие улучшения становятся слишком малыми.
Чем FLAML отличается от других?
Если кратко, FLAML фокусируется на поиске одной очень хорошей модели, а не на создании их ансамбля. Отсюда его сильные стороны: он лёгкий и быстрый. Но он лучше подходит для табличных данных среднего размера (до 10 млн строк).
Инструмент 2: AutoGluon
Что это?
Библиотека от Amazon. Её девиз — «высокое качество с минимальными усилиями».
Как это работает?
AutoGluon действует основательно:
Автоматически анализирует данные: определяет тип задачи, признаки, пропуски.
Проводит предварительную обработку: заполняет пропуски, кодирует категориальные переменные.
Параллельно обучает множество разных моделей: от линейных до градиентного бустинга и нейросетей.
Объединяет лучшие модели в ансамбль, используя технику стекинга (stacking). Это похоже на консилиум врачей: каждое мнение (предсказание отдельной модели) учитывается для итогового решения.
Когда его использовать?
AutoGluon отлично подходит для табличных данных, текста, изображений или их комбинации, когда нужно быстро получить модель с высокой точностью, не углубляясь в ручную настройку.
Инструмент 3: H2O AutoML
Что это?
Мощная платформа, созданная для работы с большими данными и масштабируемых вычислений.
Как это работает?
H2O использует многоуровневый подход:
Базовые модели: обучает 10-30 моделей с разными настройками.
Ансамбли (stacking): ключевая особенность. H2O создаёт несколько ансамблей, где предсказания базовых моделей передаются «мета-модели» для финального решения. Это даёт прирост в точности.
Таблица результатов: вы получаете ранжированный список всех моделей и выбираете ту, что лучше подходит — самую точную или самую простую для внедрения.
Когда его использовать?
Когда у вас очень большой набор данных (сотни тысяч строк и больше).
Когда нужно сравнить много моделей.
Когда планируется масштабирование на кластер серверов.
Имейте в виду: H2O требует больше памяти и времени на работу, но это компенсируется мощностью и качеством.
Отдельным плюсом инструмента является вполне приемлемый веб-интерфейс чем-то напоминающий Jupyter-notebook (демо можно посмотреть здесь – https://www.youtube.com/watch?v=wzeuFfbW7WE ).
Что выбрать новичку?
Для большинства задач начинайте с FLAML или AutoGluon. Если данных очень много и есть вычислительные ресурсы, пробуйте H2O.
Больше инструментов AutoML и их сравнение между собой можно найти по ссылке – https://www.rapidcanvas.ai/blogs/benchmarking-automl-exploring-the-top-automl-libraries
Ноутбук со сравнение H2O, FLAML и LighautoML – https://www.kaggle.com/code/tolgakurtulus/comparison-of-lightautoml-h2o-ai-flaml
Часть 2. Учёт экспериментов — память о вашей работе
Проблема, которую легко не заметить
Представьте: понедельник утром. Руководитель спрашивает: «Помнишь тот тест две недели назад, где точность была 0.85? Какие там были параметры?»
Вы открываете папку проекта. 15 файлов: experiment_1.ipynb, experiment_BEST_v2.ipynb... История в Git помогает, но там только код, а все показатели выводились в консоль и не сохранились.

Учёт экспериментов – это не просто «удобно». Это необходимость в профессиональной работе.
Инструмент 4: MLflow
Что это?
Открытая платформа для управления жизненным циклом моделей. Она гибкая и не навязывает жёстких правил.
Что она сохраняет?
Параметры и настройки модели
Показатели качества на каждом этапе
Результаты работы: графики, данные, сами модели
Версию кода и используемых библиотек
Время и длительность каждого запуска
Инструмент 5: ClearML
Что это?
Другая открытая платформа, которая стремится к максимальной автоматизации.
В чём ключевое отличие от MLflow?
ClearML работает как «наблюдатель» в вашем коде. Вы просто запускаете скрипт, а он автоматически фиксирует всё: перехватывает параметры, информацию из Git, список установленных библиотек и логи. Это экономит много времени, но требует чуть больше усилий для начальной настройки.
Отдельно стоит отметить возможность настроить последовательность выполнения кода, как визуально в webui, так и через скрипты. Рекомендую посмотреть пример – https://m.youtube.com/watch?v=UVBk337xzZo .
Что выбрать новичку?
Рекомендую начать с MLflow, её проще понять и освоить. Для исследовательских задач, где много экспериментов, присмотритесь к ClearML.
Часть 3. MLOps — от прототипа к рабочей системе
Почему это важно для карьеры?
Типичный разговор на собеседовании:
Рекрутер: «У вас есть опыт внедрения моделей?»
Вы: «Да, я обучил модель, и она работает в моём Jupyter Notebook».
Рекрутер: «А как ваши пользователи получают прогнозы?»
Вы: «...они присылают мне данные, я запускаю Notebook и отправляю ответ».
Это не рабочая система. Это демонстрация.

В реальных компаниях модели работают как сервисы (API), обрабатывают тысячи запросов в секунду, автоматически обновляются и контролируются. Это и есть MLOps — то, что часто отличает начинающего специалиста от более опытного.
Инструмент 6: BentoML
Что это?
Фреймворк для упаковки и развёртывания моделей. Его цель — превратить вашу модель в работающий сервис за несколько минут.
Что он делает?
Автоматически создаёт REST API для вашей модели
Проверяет корректность входящих данных
Управляет версиями моделей
Работает с разными библиотеками машинного обучения
Готов к работе в производственной среде, поддерживает Docker и Kubernetes
Инструмент 7: Docker
Что это?
Платформа для контейнеризации приложений. В нашем контексте — это способ упаковать модель, код и все зависимости в изолированный «контейнер».
Какая проблема решается?
Вы обучили модель на своём компьютере с Python 3.10 и определёнными версиями библиотек. Передали файл коллеге. У него другие версии — и модель не работает. Классическая ситуация «у меня работает, а у тебя — нет».
Зачем Docker в машинном обучении?
Воспр��изводимость: версии всех компонентов зафиксированы.
Изоляция: контейнер не конфликтует с другим ПО на сервере.
Переносимость: контейнер работает одинаково на вашем ноутбуке, сервере компании или в облаке.
Заключение: как инструменты помогают расти
Я начал статью с примера хаотичного проекта. Спустя несколько месяцев работы с правильными инструментами такие проекты меняются. Поиск модели ускоряется в разы, результаты всех тестов легко найти и воспроизвести, а коллеги могут использовать модель через удобный API.
Пропадает чувство, что проект — это «чёрный ящик» из разрозненных файлов. Вместо этого появляется понятная и управляемая система.
План для первых месяцев
Период | Что изучить |
Месяц 1-2 Основы | • Изучите один AutoML (рекомендую FLAML) • Настройте MLflow для своих экспериментов • Привыкните логировать каждый эксперимент |
Месяц 3-4 Углубление | • Попробуйте второй AutoML (AutoGluon или H2O) • Изучите ClearML — посмотрите на альтернативу • (Опционально) Начните версионировать датасеты (DVC) |
Месяц 5-6 Production | • Изучите BentoML или FastAPI • Создайте свой первый Docker контейнер • Настройте базовый мониторинг |
Эти инструменты не просто решают технические задачи. Они меняют подход к работе и помогают быстрее стать профессионалом.
