Как стать автором
Обновить
5
0
Василий Сизов @Vasily_Sizov

Team Lead команды «Моделирование ЖЦК» в ВТБ

Отправить сообщение

А для холодного старта как предполагается инструмент использовать? По идее, алгоритм популярных рекомендаций для пользователей, которых не было в тренировочной выборке, должен из коробки работать

Наш вариант - это и есть стандартная кросс-валидация. Ничего нестандартного в ней нет. Мы просто сделали так, чтобы предобработка данных на каждом шаге училась и применялась заново. Это как раз и позволяет избегать ликов.

Более того - применяли библиотеку в некоторых соревнованиях. В результате получали очень хорошие несмещенные модели. Но это уже больше из-за кросс-валидации и контроля переобучения в бустингах на каждом фолде.

Добрый день.

В нашей библиотеки мы этому уделили особое внимание. В базовый класс у нас всегда передается base_pipe - это как раз настроенный конвейер обработки.

И, если у вас, например, 5 фолдов, то на каждой итерации цикла этот конвейер обработки учится на 4 фолдах, а потом применяется и на 4 фолдах и на последнем фолде, и так 5 раз.

Если рассмотреть ваш пример со средним, то вот эта замена среднего будет происходить внутри кросс-валидации n раз, а саму замену вы должны будете передать как инстанс класса в sklearn pipeline.

В этом ноутбуке явно видно то, о чем я пишу: https://github.com/Vasily-Sizov/autobinary_framework/blob/main/02_CV_importances_for_trees/2.1 CV_bin_classification - different_models.ipynb, а вместо base_pipe вы можете передать любой конвейер обработки, какой хотите.

Информация

В рейтинге
Не участвует
Откуда
Москва, Москва и Московская обл., Россия
Работает в
Дата рождения
Зарегистрирован
Активность

Специализация

Data Scientist
Lead