Как стать автором
Поиск
Написать публикацию
Обновить

Комментарии 1

Хорошая статья для начинающих, годная. Начинал так же. сейчас не шейкаю вообще ничего встроенными инструментами. К подготовке обучающих данных стал подходить скрупулезно, споткнулся несколько раз, теперь это отдельное направление. Стратифицирую все ручками, сначала исследуем подопечного, потом разделяю скриптами написанными специально для данных с полным логом, потом еще проверка уже подготовленных данных. К слову датасеты разделяю на файлы обучения, валидации и тестовые, к тестовым данным подпускаю только изолированную модель, что бы сравнивать с валидацией, через несколько эпох, для контроля заучивания теста и валидации. При создании датасетов использую практически всегда RobustScaler и делаю клипинг квентилями. Данные сортирую по выборкам с пристальным вниманием, что бы во все выборки попали одинаково наборы данных, исключительные моменты, принудительно отправляются в обучающую выборку. Разделение данных во время обучения как по мне плохая практика, нет контроля качества данных. Временные ряды так же можно разделять на логические фрагменты. например, разделение на недели часто подходит.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий