Комментарии / Профиль netay / Хабр

Игорь@netay

ML-исследователь

Блиц-проверка алгоритмов машинного обучения: скорми свой набор данных библиотеке scikit-learn

netay 23 дек 2019 в 06:04

Распространён такой подход в ML, как попробовать все алгоритмы из sklearn, и либо задача решится сама ("и так сойдёт"), либо надо будет думать. Эта статья очень полезна, потому что сводит к минимуму первую стадию. И если дойдёт до второй, предстоит нелёгкий выбор:

переставать решать такую задачу;
погружаться в предметную область, в программирование, а то и в математику;
подбирать контанты через gridsearch, докидывать слои в нейронки, пока не будет нужный уровень accuracy и всё такое, но только не вдаваться в подробности, не тратить на это время.

Последний способ мне кажется современной алхимией, потому что его последователи произносят заклинания типа "AdaBoost!", "RandomForest!", не разбираясь в том, что при этом происходит. Плохого в этом ничего нет: специалист останется ценен, а неспециалист не побежит получать инженерное образование, чтобы вернуться через 10 лет и начать решать задачи, зато сможет быстрее начать пробовать и тренироваться. Но всё же от такой алхимии до содержательных решений далеко.

Я согласен, что бояться библиотечных алгоритмов не стоит, но всё-таки изучать предметную область, природу данных и логику алгоритмов хотя бы на базовом уровне надо, чтобы не начинать загонять в XGBoost, случайные леса и свёрточные нейронки то, что прекрасно решается линейной регрессией (вдруг можно при помощи сложных методов выразить линейную функцию более качественно; я слышал о тех, кто реально так делает). С блиц-проверкой можно начать делать именно это. Но для первого знакомства с ML почему бы и нет)))

В рейтинге: Не участвует

Откуда: Москва, Москва и Московская обл., Россия

Дата рождения: 27 февраля 1988

Зарегистрирован: 27 ноября 2019

Активность: 22 ноября 2025 в 17:22

Ученый по данным

Python

Машинное обучение

Нейронные сети

Математика

Rust

Docker

Linux

C++

Прикладная математика

PyTorch

Информация

Специализация