AutoML великий и могущественный

На текущий момент, пожалуй, нет ни одного человека, кто интересуется информационными технологиями и не слышал о том, что машинное обучение, интеллектуальный анализ данных, системы поддержки принятия решений являются одними из ключевых направлений для реализации сценариев цифровой трансформации.

Бизнес-сценарии с применением ML (машинного обучения) охватывают все направления бизнеса и используют большинство типов данных: табличных, текстов и аудио, изображений и др. Проектов становится все больше, а количество специалистов растет не так быстро. Появляется идея о том, что часть работы этих «дорогих» дата-сайентистов можно автоматизировать. И тут на помощь приходит AutoML.

Под AutoML понимают разное. Мы в SAP считаем, что это автоматизация рутинных операций Data Science. Наверное, не стоит описывать определение подробнее в данной статье, так как довольно неплохо все уже сделал ранее Алексей Натекин тут.

Если смотреть видео желания нет, то вот некоторые мысли на тему:

image

На эту тему есть хороший пример. Однажды, в группе DS мы обсуждали случай из практики – на собеседование пришел человек, который претендовал на роль Senior DS, при этом вс
е, что он умел делать, это запускать один из популярных AutoML инструментов. На резонный вопрос, как с такими знаниями можно претендовать на Senior уровень, его ответ был безупречен: «Я приношу бизнесу деньги, и это мой инструмент». То есть AutoML в сценариях, где данные уже аккуратно собраны в витрины, фичи предметной области сгенерированы, а также метрики качества определены, позволяет быстро запустить новый сервис. Да, результат, возможно, будет хуже проф. DS, но скорей всего лучше джуна, и в некоторых случаях им сразу можно воспользоваться.

Вот еще примеры, что думают по этому поводу популярные лица из коммьюнити (первый комментарий относится к обсуждению новости того, что AutoML от Google занял 2-ое место).

image

А использование большого количества ресурсов получается, потому что сейчас нет продвинутого мета-обучения. Точнее, оно есть точечно в некоторых решениях или на очень ранней стадии готовности. Еще его можно встретить в виде прототипов. В остальном же остается случайный поиск гиперпараметров или более перспективные подходы: TPE, Байесовская оптимизация, NAS, RL.

Для того, чтобы решения и подходы AutoML можно было сравнивать, появился открытый бенчмарк. Коммерческие решения не очень любят таких сравнений по очень простой причине – открытая конфронтация почти невозможна. Кроме точности, слишком разный фокус на типы данных, встраивание и использование. Сделать саму модель – это 15-20% работы (а может и меньше), помимо этого есть огромный пласт прочих работ – от переносов, до публикации сервиса.

SAP занимает свою позицию на рынке AutoML. У нас есть несколько разных движков с разным уровнем зрелости.

SAP Automated Preditive Library в SAP HANA, который исторически появился после покупки компании KXEN в 2013 году, развивался далее исключительно как инструмент максимально быстрой реализации моделей. Он удобен, когда нет тяжелого (по времени) бюджета на обучение моделей, но важен достаточно качественный результат. По сути – считайте это быстрой версией AutoGBDT.Сейчас есть привычная для большинства обертка на питоне, и выглядит это примерно так (рис.1).

image
Рисунок 1.

Вторая ветка решения AutoML в SAP Data Intelligence от SAP появилась в декабре 2019 года. Это подход, построенный на базе привычных open source инструментов и дополненный собственными разработками. Здесь настраивается уже возможное время подсчетов, и в рамках кластера подбирается оптимальное сочетание шагов, алгоритмов, и гиперпараметров, где итоговый пайплайн выглядит примеров так (рис. 2).

image
Рисунок 2.

Это AutoML, который является частью платформы SAP Data Intelligence и может работать как в cloud, так и в on-premise. Также, здесь появляется все, что необходимо для управления датасетами, интеграцией и, пожалуй, самое главное – стандартные механизмы встраивания в SAP S/4HANA c генерацией интерфейсов и сервисов.

Если рассмотреть последующие шаги, то вполне очевидно, что данные, с точки зрения бизнеса, должны насыщаться аннотациями, которые будут релевантными для определенных задач. Это и доменные признаки, и наилучшие формы агрегации при определенных связях бизнес-объектов, и предобученные микро-нейронные сети – фичеэкстракторы.

Если посмотреть на соревнования и статьи в области AutoML, то можно явно выделить следующие направления:

  1. AutoTable – табличные данные
  2. AutoCV – изображения и видео
  3. AutoNLP – тексты
  4. AutoTS – временные ряды
  5. AutoGraph – графы
  6. AutoSpeach – звук
  7. AutoAD – поиск аномалий

Предполагаю, появятся решения и под AutoRL – для обучения с подкрепления.

На текущий момент SAP фокусируется на работе с табличными данными, временными рядами и аномалиями в части AutoML решений. Причина – проста, построить интеллектуальное предприятие возможно только с огромным количеством моделей в каждой из бизнес-областей.

Ну и, конечно, в каждой компании своя специфика, поэтому, если стандартные модели (типовые) не подходят, необходима их кастомизация. И проще всего это сделать, используя инструменты, не требующие участия DS-специалистов.

В общем, много нового и интересного ждет нас в будущем…

Автор – Дмитрий Буслов, старший архитектор бизнес-решений SAP CIS.
SAP
Лидер рынка корпоративных приложений

Комментарии 0

Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

Самое читаемое