Сравни: как мы использовали ML на лендингах финансовых продуктов и что из этого получилось? / Comments / Habr

marwkoka Jun 1 2022 at 10:04

Работа производилась с временными рядами, так что для разбиения таблиц лагов на трейн/тест выборки использовался соответствующий сплиттер https://scikit-learn.org/stable/modules/cross_validation.html#time-series-split. А в качестве финальной валидационной выборки для проверки обученного пайплайна откладывались самые «свежие» по времени данные. Однако кросс-валидация с KFold/Shuffle сплитами тоже производилась - сравнив результаты можно понять, что модель впринципе не может аппроксимировать зависимость между точками ряда (если все валидации показали плохие результаты), или же конкретно из за того, что эта зависимость меняется со временем (плохие результаты покажет только TimeSeriesSplit).