Comments 7
🐛
Более подробный алгоритм синтеза данных и параметры тренировки вы можете посмотреть в нашей статье.
А где можно посмотреть то?
Статья по той же ссылке, что и голосование :) Если получится, то можете еще и помочь апвоутом
https://huggingface.co/papers/2504.20752
Исследование реально интересное, но вот вопрос, насколько я увидел веса вы не планируете выкладывать, а как обстоят дела с датасетом?
Статья классная, но почему так много народа, занимающегося гроккингом не знают, что в той самой эталонной задачке с картинки про деление нацело просто поиграв гиперпараметрами можно получить гроккинг не за миллион эпох, а на самом деле можно заставить его проявиться ещё до того, как тестовая выборка будет выучена.
Больше смотрите доклады на российском ODS DataFest, у будете знать о гроккинге не просто больше, а на много больше. :) :P
Спасибо за статью, довольно интересный результат!
Пара замечаний по содержанию:
в течение 200.000 эпох
- по всей видимости, имело в виду шагов обучения (если только обучающая выборка не совсем крошечная). Иначе не представляю, как можно даже для маленькой GPT-2 прогнать столько итераций за 12 часов на 1 A100.На рисунке с 4-мя графиками (
Давайте разберем получившиеся графики по одному.
) на графике (a) в легенде оба графика зеленые. Наверное, предполагалось, что сплошные графики отвечают оригинальной модели, а пунктирные - грокнутой. Зеленый цвет - train по всей видимости, а синий - test.
Как я обошел современные GPT модели с помощью GPT2-small на задачах рассуждения