Search
Write a publication
Pull to refresh

Comments 7

Часть картинок (да собственно почти все) расплывается довольно неприятно для глаз, нельзя ли загрузить нормальные, чёткие картинки? Спасибо )

Типичная ошибка при моделировании – это лики в данных. Например, моделист сначала заполняет пустые значения в фичах средним значением, а только потом разделяет выборку на train и test.

Тогда получается, что применение кросс валидации ошибочно, поскольку изначально имеются лики на тестовом фолде, т.к. пустые значения заменяются заранее на всех данных?

Добрый день.

В нашей библиотеки мы этому уделили особое внимание. В базовый класс у нас всегда передается base_pipe - это как раз настроенный конвейер обработки.

И, если у вас, например, 5 фолдов, то на каждой итерации цикла этот конвейер обработки учится на 4 фолдах, а потом применяется и на 4 фолдах и на последнем фолде, и так 5 раз.

Если рассмотреть ваш пример со средним, то вот эта замена среднего будет происходить внутри кросс-валидации n раз, а саму замену вы должны будете передать как инстанс класса в sklearn pipeline.

В этом ноутбуке явно видно то, о чем я пишу: https://github.com/Vasily-Sizov/autobinary_framework/blob/main/02_CV_importances_for_trees/2.1 CV_bin_classification - different_models.ipynb, а вместо base_pipe вы можете передать любой конвейер обработки, какой хотите.

Спасибо, такой подход мне ранее не встречался. А наблюдалась ли вами какая нибудь разница в результатах обучения между стандартной cv и вашим вариантом?

Наш вариант - это и есть стандартная кросс-валидация. Ничего нестандартного в ней нет. Мы просто сделали так, чтобы предобработка данных на каждом шаге училась и применялась заново. Это как раз и позволяет избегать ликов.

Более того - применяли библиотеку в некоторых соревнованиях. В результате получали очень хорошие несмещенные модели. Но это уже больше из-за кросс-валидации и контроля переобучения в бустингах на каждом фолде.

Извиняюсь, это вопрос по первой статье.

К чему вся Ваша наука, толпы разрабов, если после закрытия нескольких вкладов, ВТБ пишет - "что-то пошло не так" (и в мобильном и в браузерах).
Приходится ждать следующего дня.

Sign up to leave a comment.