Добро пожаловать на мой маленький тестовый полигон.
В этой статье я расскажу, как столкнул лбами двадцать один алгоритм машинного обучения - от старой доброй линейной регрессии, KNN, случайного леса до троицы табличных королей (XGBoost, LightGBM, CatBoost), нескольких многослойных нейросетей и нейросетей с механизмом внимания. И я заставил их всех решать задачу, которая на первый взгляд кажется абсурдной (только на первый взгляд?).
Большинство бенчмарков в машинном обучении вроде MNIST или Titanic давно натренированы до дыр. На картинках побеждают свертки, а на табличных данных – градиентный бустинг. Предсказуемо. Скучно.
Поэтому я решил устроить особый стресс-тест, соревнование немного иного формата, проверка на предельную прочность на табличных данных.
Да... еще среди участников забега будет один новичок, о котором большинство читателей, вероятно, слышит впервые. Он не раскручен и не имеет армии поклонников на Kaggle. Но уже имеет красивое название – Полигармонический каскад. Это глубокая архитектура, выведенная из принципов теории случайных функций и индифферентности. В этом тестировании он выступал в роли новичка-аутсайдера. Но то, что он сделал с фаворитами, выглядит как читерство. Но об этом позже.
Итак, что же это за задача?