Reinforcement Learning from Human Feedback: когда одной математики мало / Comments / Habr

rPman Aug 21 2023 at 14:46

Десятки компаний тратят кучу сил и ресурсов, создают/выбирают 'вопросы' и помечают уровень качества ответа модели, в т.ч. дают свой ответ, чтобы улучшить свою модель, без какой-либо возможности переиспользовать собранную информацию другими (есть мнение, что использование размеченных данных, например оценка качества ответа, одной модели не может помочь другой, даже хуже, она по этой теме может ухудшить результат, вынуждая модель больше галлюцинировать на эту тему).

Вот бы всем миром собрались, и улучшили одну модель максимально эффективно.

А 'выравниванием' не нужно ломать модель, лучше создать соседнюю, которая, исходя из предпочтений страны/компании владельца, будет детектировать острые углы в запросах пользователей и ответах модели и выдавать заранее запрограммированные ответы.

Пытаться обучить модель всему многообразию заблуждений и нелогичностей человечества обречено на провал.

dustalov Aug 21 2023 at 15:10

RLHF не является оптимальным способом научить машины думать, но пока это самый яркий пример из того, что у нас есть. Люди постепенно собираются и делают вместе разные открытые инициативы вроде BLOOM и Open Assistant, но опыта у сообществ меньше, чем у компаний, и пока не всё работает хорошо (но я верю в людей).

Важно понимать, что выравнивание в RLHF нужно не только для того, чтобы писать пользователям “As an AI language model ...”, а чтобы уточнить, как лучше общаться с пользователем. Одновременно обеспечить и безопасность, и полезность ответов довольно трудно, и это открытое направление исследований.

kucev Jul 4 2024 at 14:26

Отличная статья!

Reinforcement Learning from Human Feedback: когда одной математики мало

Comments 3

Articles