Комментарии 2
Спасибо за статью. Ради интереса, насколько отличается качество моделей CatBoost для Spark и классического CatBoost? Есть бенчмарки? И есть ли удобные методы оптимизации гиперпараметров на Spark?
По поводу бенчмарков не скажу, но модели должны получаться достаточно близкими друг к другу за минусом погрешности. А вот удобных методов оптимизации гиперпараметров я не обнаружил. Я попробовал использовать optuna, но из-за особенностей работы catboost на spark это было достаточно неудобно. Сначала catboost поднимает клиент-северное приложение, проводит обучение, после чего optuna запускает его снова, снова поднимается клиент-серверное приложение. На кластере k8s это выглядит как поднятие и остановка пода с экзекуторами. Процесс не быстрый.
Зарегистрируйтесь на Хабре, чтобы оставить комментарий
Машинное обучение на Spark