Как стать автором
Обновить

Как я обошел современные GPT модели с помощью GPT2-small на задачах рассуждения

Уровень сложностиПростой
Время на прочтение9 мин
Количество просмотров5.9K
Всего голосов 22: ↑21 и ↓1+23
Комментарии7

Комментарии 7

Более подробный алгоритм синтеза данных и параметры тренировки вы можете посмотреть в нашей статье.

А где можно посмотреть то?

Статья по той же ссылке, что и голосование :) Если получится, то можете еще и помочь апвоутом

https://huggingface.co/papers/2504.20752

Исследование реально интересное, но вот вопрос, насколько я увидел веса вы не планируете выкладывать, а как обстоят дела с датасетом?

Статья классная, но почему так много народа, занимающегося гроккингом не знают, что в той самой эталонной задачке с картинки про деление нацело просто поиграв гиперпараметрами можно получить гроккинг не за миллион эпох, а на самом деле можно заставить его проявиться ещё до того, как тестовая выборка будет выучена.

Больше смотрите доклады на российском ODS DataFest, у будете знать о гроккинге не просто больше, а на много больше. :) :P

Спасибо за статью, довольно интересный результат!

Пара замечаний по содержанию:

  • в течение 200.000 эпох - по всей видимости, имело в виду шагов обучения (если только обучающая выборка не совсем крошечная). Иначе не представляю, как можно даже для маленькой GPT-2 прогнать столько итераций за 12 часов на 1 A100.

  • На рисунке с 4-мя графиками (Давайте разберем получившиеся графики по одному. ) на графике (a) в легенде оба графика зеленые. Наверное, предполагалось, что сплошные графики отвечают оригинальной модели, а пунктирные - грокнутой. Зеленый цвет - train по всей видимости, а синий - test.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации