Содержание

😎 Следуй за белым кроликом 💊

📌 Telegram @TheWeeklyBrief — краткие обзоры и подкасты 📰🎧🐇

📌 GitHub Pages — углублённый разбор статей, ныряем в кроличью нору 📝💻🐾

1. Введение

Большие языковые модели (LLM) произвели революцию в приложениях искусственного интеллекта, значительно улучшив свои способности благодаря обучению с подкреплением на основе обратной связи от человека (RLHF).

Одним из ключевых компонентов RLHF является моделирование вознаграждения — процесс создания моделей, способных оценивать качество ответов, генерируемых LLM.

Несмотря на значительные достижения в этой области, большинство существующих подходов сталкиваются с проблемой масштабируемости во время инференса, что ограничивает их способность повышать точность оценок при увеличении доступных вычислительных ресурсов.

В этой статье представлен новый подход к моделированию вознаграждения, который специально решает проблему масштабируемости во время инференса. Авторы представляют Self-Principled Critique Tuning (SPCT), метод обучения, который позволяет Generative Reward Models (GRM) генерировать обоснованные оценки, которые можно масштабировать во время инференса, используя дополнительные вычисления. Как показано на рисунке выше, их подход (DeepSeek-GRM-27B) демонстрирует значительное улучшение производительности при сборе большего количества выборок вознаграждения, превосходя существующие модели.

2. Понимание парадигм моделирования вознаграждения

Подходы к моделированию вознаграждения можно разделить на три основные парадигмы в зависимости от способа генерации оценок:

1. Модели скалярного вознаграждения

Эти модели напрямую выдают числовую оценку (скалярное значение), характеризующую качество сгенерированного ответа.

2. Полускалярные модели вознаграждения

Данные модели генерируют как текстовую критику, так и числовую оценку, сочетая интерпретируемость и количественную точность.

3. Генеративные модели вознаграждения (GRM)

Эти модели фокусируются исключительно на генерации текстовой критики, предоставляя подробную обратную связь без явного числового представления вознаграждения.

Эти парадигмы можно комбинировать с двумя шаблонами оценки:

Точечная оценка: оценка отдельных ответов независимо;
Парная оценка: непосредственное сравнение двух ответов.

Авторы подчеркивают, что точечные GRM предлагают уникальные преимущества - они обеспечивают интерпретируемую обратную связь, сохраняют гибкость в обработке различных типов входных данных и, что немаловажно, обеспечивают масштабирование во время инференса за счет выборки нескольких вознаграждений. Эта масштабируемость позволяет моделям генерировать более точные вознаграждения при наличии дополнительных вычислений, не требуя переобучения или использования более крупных моделей.

3. Self-Principled Critique Tuning

Основным новшеством этой статьи является "самостоятельная точная настройка критики (SPCT)", которая обучает GRM генерировать оценки, соответствующие структурированному формату принципов и критики. SPCT состоит из двух ключевых этапов:

Отрицательная точная настройка (RFT): этот начальный этап знакомит модель со структурированным форматом оценки. Модель генерирует принципы и критику, которые затем фильтруются для создания набора данных для обучения, отклоняя некачественные результаты.
Онлайн-обучение с подкреплением на основе правил (RL): этот этап дополнительно совершенствует способность модели генерировать качественные оценки, применяя сигналы вознаграждения на основе предопределенных правил.

Ключевое понимание SPCT заключается в том, что генерация принципов рассматривается как неотъемлемая часть процесса генерации вознаграждения, а не как этап предварительной обработки. Это позволяет модели адаптивно генерировать принципы на основе конкретного запроса и оцениваемых ответов, что делает модель вознаграждения более гибкой и универсальной.

Во время инференса GRM можно масштабировать:

Сэмплированием нескольких независимых оценок;
Агрегированием этих оценок (посредством голосования или более сложных методов);
Использованием мета-модели вознаграждения для дальнейшего улучшения качества агрегирования.

4. Стратегии масштабирования во время инференса

В статье исследуются несколько стратегий масштабирования моделей вознаграждения во время инференса:

Параллельное сэмплирование: генерация нескольких независимых оценок для одной и той же пары запрос-ответ.
Голосование: простой метод агрегирования, который учитывает большинство голосов по нескольким оценкам.
Мета-модель вознаграждения (Meta RM): более сложный подход, который использует классификатор для определения того, какие оценки являются более надежными.

Авторы обнаружили, что масштабирование во время инференса может фактически превзойти масштабирование во время обучения (увеличение размера модели). Как показано на рисунке выше, модель с 27B параметрами с масштабированием во время инференса может достичь лучшей производительности, чем гораздо большая модель, оптимизированная с помощью обучения с подкреплением.

Этот вывод ставит под сомнение общепринятое мнение о том, что увеличение размера модели является наиболее эффективным способом повышения производительности. Вместо этого, лучшее использование вычислительных ресурсов во время инференса может дать превосходные результаты при сохранении эффективности модели.

5. Экспериментальные результаты

Авторы провели обширные эксперименты для оценки своего подхода:

Производительность на бенчмарках: модели DeepSeek-GRM были протестированы на нескольких бенчмарках, включая AlpacaEval, MT-Bench и проприетарный бенчмарк моделирования вознаграждения (RMB). Результаты показали, что DeepSeek-GRM с масштабированием во время инференса превосходит существующие современные модели вознаграждения.

Эффективность масштабирования: модель с 27B параметрами показала стабильное улучшение производительности с увеличением количества образцов (от 1 до 32), особенно при использовании Meta RM для агрегирования.
Возможность обобщения: модели продемонстрировали высокую производительность в различных задачах, включая оценку чатов, оценку безопасности и задачи рассуждения.
Эффективность обучения: обучение SPCT требовало значительно меньше вычислений, чем полные подходы обучения с подкреплением, при сохранении сопоставимой производительности.

Эксперименты подтверждают, что масштабирование во время инференса предлагает практичный и эффективный подход к улучшению качества модели вознаграждения без вычислительной нагрузки, связанной с обучением более крупных моделей или использованием дорогостоящего обучения с подкреплением.

6. Конвейер обучения модели

Авторы подробно описывают комплексный конвейер обучения для разработки своих универсальных моделей вознаграждения:

Base Model Preparation: начинается с предварительно обученной языковой модели (DeepSeek-V3).
Rejective Fine-Tuning: обучение модели генерации структурированных оценок с принципами и критикой.
Rule-Based RL: дальнейшее улучшение модели посредством онлайн-обучения с вознаграждениями на основе правил.
Meta RM Training: разработка классификатора для улучшения агрегирования нескольких оценок.

Этот конвейер позволяет разрабатывать модели вознаграждения, которые могут эффективно использовать дополнительные вычисления во время вывода. Благодаря интеграции как контролируемого обучения (RFT), так и обучения с подкреплением, модели учатся генерировать высококачественные оценки, которые можно масштабировать с помощью выборки.

7. Преимущества перед существующими подходами

Подход DeepSeek-GRM предлагает несколько ключевых преимуществ по сравнению с традиционными методами моделирования вознаграждения:

Интерпретируемость: в отличие от скалярных моделей типа "черный ящик", GRM предоставляют подробные объяснения своих оценок через принципы и критические замечания.
Гибкость: подход точечной оценки может обрабатывать различные форматы входных данных (одиночные ответы, пары или множественные ответы).
Масштабируемость: модель может использовать дополнительные вычислительные ресурсы во время вывода для повышения производительности без переобучения.
Общность: адаптивно генерируя принципы, модель может оценивать ответы в различных областях и задачах.
Эффективность: масштабирование во время вывода предлагает более экономичный подход к повышению производительности по сравнению с обучением более крупных моделей.

Экспериментальные результаты показывают, что эти преимущества приводят к практической пользе: модели DeepSeek-GRM превосходят существующие модели вознаграждения при использовании масштабирования во время вывода.

8. Ограничения и режимы отказа

Несмотря на свои сильные стороны, авторы выявили несколько ограничений и потенциальных режимов отказа своего подхода:

Некорректные критические замечания: GRM может иногда генерировать некорректные или непоследовательные критические замечания, особенно для сложных задач рассуждения.

Несбалансированное взвешивание: модель может присваивать несоответствующие веса различным принципам, что приводит к искаженным оценкам.
Неправильные принципы: для некоторых запросов модель может генерировать принципы, которые не являются релевантными или уместными.
Противоречия с истиной: в проверяемых задачах оценки модели могут противоречить фактическим знаниям.

Эти ограничения указывают на направления для будущего улучшения, такие как повышение способности модели проверять фактическую информацию и улучшение согласованности ее оценок.

9. Заключение и будущие направления

В статье представлен значительный прогресс в моделировании вознаграждения для больших языковых моделей путем внедрения настройки с критикой на основе самопринципов и демонстрации эффективности масштабирования во время вывода. Этот подход обеспечивает более эффективное использование вычислительных ресурсов и предоставляет способ улучшить модели вознаграждения без необходимости использования все более крупных моделей или дорогостоящего обучения с подкреплением.

Будущие направления исследований, определенные авторами, включают:

Интеграция с онлайн-RL: использование GRM непосредственно в конвейерах обучения с подкреплением.
Совместное масштабирование с моделями политик: изучение того, как масштабирование во время вывода как моделей политики, так и моделей вознаграждения может привести к синергетическим улучшениям.
Устойчивость и смягчение предвзятости: устранение выявленных режимов отказа для создания более надежных моделей вознаграждения.
Оффлайн-оценка: использование GRM в качестве надежных оценщиков для базовых моделей.

Эта работа представляет собой сдвиг парадигмы в мышлении о моделировании вознаграждения, подчеркивая, что то, как вычислительные ресурсы используются во время вывода, может быть так же важно, как размер модели или методы обучения. Это понимание имеет широкие последствия для разработки более эффективных и результативных больших языковых моделей в будущем.

Inference-Time Scaling for Generalist Reward Modeling