Пост @DeadSailor — Блог компании Точка Банк

14 фев в 13:006.2K

Блог компании Точка БанкPython * Natural Language Processing *

Proximal Policy Optimization

Многие слышали про RLHF, который стал причиной успеха ChatGPT. Этот подход учит модели вести себя так, как мы хотели бы: этим он отличается от претрена, который дает только базовые способности к естественному языку.

В основе метода лежит reinforcement learning алгоритм Proximal Policy Optimization. Сначала мы создаем датасет из пар ответов, отранжированных человеком, и обучаем отдельную модель наград предсказывать, насколько ответ будет подходящим к вопросу. Это позволяет использовать модель для понимания, насколько людям понравятся неразмеченные ответы.

Дальше мы используем обученную модель, чтобы оценивать ответы нашей LLM и обучать ее максимизировать вероятность сгенерировать текст, который получит большую награду — то есть, быть ближе к “хорошему” ответу.

При использовании метода LLM сильно деградирует, потому что для максимизации вероятности успеха жертвует другими способностями. Для сохранения начальных качеств модели мы ставим ограничение (Kullback-Leibler divergence) на вид распределения вероятностей получить различные токены.

Плюсы метода:

Достаточно эффективен, в том числе для очень больших моделей. На нем работают модели из топа арены.
В зависимости от требований, мы можем обучить модель под любые качества и быть уверенными, что она не будет слишком сильно деградировать по другим способностям.

Минусы:

RL достаточно сложно настраивать и контролировать, а еще она довольно быстро оверфитится.
Так как фидбэк от людей очень дорогой, нужно обучить дополнительную модель наград для ранжирования ответов.
Нужно держать в памяти сразу несколько больших моделей: саму модель, ее начальную версию, ревард-модель.

Публикации

Информация