Comments 7
Часть картинок (да собственно почти все) расплывается довольно неприятно для глаз, нельзя ли загрузить нормальные, чёткие картинки? Спасибо )
Типичная ошибка при моделировании – это лики в данных. Например, моделист сначала заполняет пустые значения в фичах средним значением, а только потом разделяет выборку на train и test.
Тогда получается, что применение кросс валидации ошибочно, поскольку изначально имеются лики на тестовом фолде, т.к. пустые значения заменяются заранее на всех данных?
Добрый день.
В нашей библиотеки мы этому уделили особое внимание. В базовый класс у нас всегда передается base_pipe - это как раз настроенный конвейер обработки.
И, если у вас, например, 5 фолдов, то на каждой итерации цикла этот конвейер обработки учится на 4 фолдах, а потом применяется и на 4 фолдах и на последнем фолде, и так 5 раз.
Если рассмотреть ваш пример со средним, то вот эта замена среднего будет происходить внутри кросс-валидации n раз, а саму замену вы должны будете передать как инстанс класса в sklearn pipeline.
В этом ноутбуке явно видно то, о чем я пишу: https://github.com/Vasily-Sizov/autobinary_framework/blob/main/02_CV_importances_for_trees/2.1 CV_bin_classification - different_models.ipynb, а вместо base_pipe вы можете передать любой конвейер обработки, какой хотите.
Спасибо, такой подход мне ранее не встречался. А наблюдалась ли вами какая нибудь разница в результатах обучения между стандартной cv и вашим вариантом?
Наш вариант - это и есть стандартная кросс-валидация. Ничего нестандартного в ней нет. Мы просто сделали так, чтобы предобработка данных на каждом шаге училась и применялась заново. Это как раз и позволяет избегать ликов.
Более того - применяли библиотеку в некоторых соревнованиях. В результате получали очень хорошие несмещенные модели. Но это уже больше из-за кросс-валидации и контроля переобучения в бустингах на каждом фолде.
Извиняюсь, это вопрос по первой статье.
К чему вся Ваша наука, толпы разрабов, если после закрытия нескольких вкладов, ВТБ пишет - "что-то пошло не так" (и в мобильном и в браузерах).
Приходится ждать следующего дня.
Autobinary: библиотека для простого обучения «деревяшек» – часть третья