Прочитал статью,заинтересовался.Так как сам собираю трансформер,1,5 млн параметров 8 голов внимания,токенизированной памятью.Дам совет,такой же как Лопез де Прадо и он откроет глаза на истинную правду.Тест для модели должен быть один,на том чего нет в репозитории в момент обучения.Форвард тест по выборке 80/20 тоже лажа.Есть один шанс на монеты как только они попали в модель берите их дальше в обучение, работайте над ошибками и снова в бой.Проблемы лукхеда вы с ии не в состоянии отследить без такой валидации.TSR/PBO обязательно но они не защищают.И собирайте полные логи обучения,без них никуда.
Прочитал статью,заинтересовался.Так как сам собираю трансформер,1,5 млн параметров 8 голов внимания,токенизированной памятью.Дам совет,такой же как Лопез де Прадо и он откроет глаза на истинную правду.Тест для модели должен быть один,на том чего нет в репозитории в момент обучения.Форвард тест по выборке 80/20 тоже лажа.Есть один шанс на монеты как только они попали в модель берите их дальше в обучение, работайте над ошибками и снова в бой.Проблемы лукхеда вы с ии не в состоянии отследить без такой валидации.TSR/PBO обязательно но они не защищают.И собирайте полные логи обучения,без них никуда.