Как стать автором
Обновить
12
0
Олег Сидоршин @oasidorshin

Data Scientist & Machine Learning Engineer

Отправить сообщение

Инструментом начали пользоваться совсем недавно, поэтому о четких оценках сказать не могу, однако целимся в существенное снижение времени на построение типовой модели и ее time2market'а.

Уже во время использования увидели, что AutoML помогает не только при моделировании, но и на других этапах разработки - прокопать данные, проверить гипотезу, понять стоит ли вообще идти в эту задачу и др.

На графиках экспертные оценки, да)

Самим энкодить это кстати очень полезно, ибо встроенные методы работы с ними прямо существенно все замедляют, особенно на больших данных.

К сожалению, не могу более четко ответить, но в целом, бустинговые модели всегда зависят от признаков - если по задаче можно построить сильные признаки, бустинги как правило являются основой решения. Если нет - подключаются уже нейронки, например на сырых последовательностях (https://habr.com/ru/companies/alfa/articles/680346/) или текстах (https://habr.com/ru/companies/alfa/articles/684774/)

Основная мысль машинного обучения заключается в том, что ML получает намного более высокое качество за намного меньшее время, чем система вида "аналитик, строящий правила". При этом, конечно же, ценность аналитики никуда не уходит - они не должны бороться друг с другом, а наоборот дополнять, что и происходит на практике)

Кстати говоря, интерпретируемость это существенно более сложный вопрос, чем кажется на первый взгляд: правила от аналитика более интерпретируемы, чем какой-нибудь бустинговый ансамбль, но они имеют существенно более низкое качество - следовательно, хуже моделируют процесс, а значит и наша интерпретация меньше его объясняет. И что тогда лучше - модель, которая хуже понимает процесс, но более понятная для нас, или наоборот?

Благодарим! С точки зрения пользователя - да, библиотека через pip install, fit/predict. Принципиальное отличие заключается в том, что модели обучаются не на ресурсах машины пользователя, а на отдельных серверах в кластере (т.е. fit отправляет запрос в backend, запускающий нужный DAG). Это позволяет запускать несколько экспериментов одновременно, и не блокирует работу пользователя, пока AutoML обучается. Подробнее про архитектуру наших сервисов можно почитать вот здесь: https://habr.com/ru/companies/alfa/articles/804085/

Ну и другие удобности по мелочам - есть абстракции задач и выборок - пользователю удобно трекать запуски и не надо перезагружать выборки каждый раз

Конечно же, наличие ачивок на Kaggle не является обязательным условием прохождения в Лабораторию машинного обучения в Альфе, но как и при любом отборе, кандидатов бывает много, и индивидуальные достижения могут хорошо выделить вас из толпы. Думаю что это особенно важно на trainee/junior уровнях, когда людей на каждую позицию много, и большинство имеют очень схожее (и малое) количество опыта, одинаковые резюме.

Спасибо, постарался описать именно процесс принятия решений в соревнованиях. Думаю, как раз в этом самое интересное и полезное в таких статьях.

Да, полеты были очень интересные, и еще довольно нервные)) Зато как обрадовался, получив на утро золото) Спасибо за поздравления!

Информация

В рейтинге
Не участвует
Зарегистрирован
Активность

Специализация

Data Scientist