Сегодня в HuggingFace Daily papers ачивку "#3 daily paper" завоевала работа китайских исследователей из TigerLab. Мне она показалась настолько логичной и классной, что захотелось побольше рассказать об этой новости.
Итак, при классическом обучении моделей есть этап Supervised Fine-Tuning, на котором люди вручную подготавливают датасет с примерами качественных ответов для ИИ. Собственно, эти примеры используются для до-обучения модели.
Проблема в том, что подготовка таких датасетов — их разметка, проверка и прочие этапы — требует участия человека, а это самый дорогой и ресурсоемкий процесс в обучении искусственного интеллекта.
В последнее время мы наблюдаем, что модели, обучаемые без ручной разметки, оказываются дешевле и обучаются быстрее, при таком же уровне качества. Прекрасный пример — DeepSeek R1-Zero, который был обучен исключительно на синтетических данных с использованием механизмов Reinforcement Learning, и обошелся в 25 раз дешевле, чем модели с аналогичным качеством.