Пост @Hedgehogues — Программирование

2 окт в 06:004.5K

Разбираю статью про обучение с подкрплением для самых маленьких и генерацию ответов

Все мы знаем, что большие модели любят учиться на готовых ответах. Но, угадай что? Готовых ответов у нас нет. Они либо дорогие, либо спорные, либо вообще непонятно какие. Представь, что у тебя есть только ты сам, твои черновики и пара свободных вечеров. Ну что, будем учиться на своих же косяках?

Вот для этого придумали Compute as Teacher (CaT). Работает оно так:

Пользователь кидает запрос. Ну там: «объясни квантовую физику бабушке».
Модель честно пишет сразу несколько версий ответа. Каждая по-своему кривая, но иногда попадаются удачные куски.
Другая копия этой же модели собирает из них «лучший хит» — вроде плейлиста «самое ок» из твоих старых песен.
Потом мы сравниваем все черновики с этим «финальным шедевром» и решаем: «ага, вот это было ближе, а это лучше забыть как страшный сон».
Модель сама делает выводы и в следующий раз уже тупит чуть меньше.

В итоге получается странная штука: модель учится без учителя, проверяя сама себя. Как если бы школьник писал 5 вариантов решения задачи, потом сам делал «сборку Франкенштейна» из них, и именно её принимал за эталон. А дальше наказывает себя за плохие черновики и хвалит за удачные.

И что самое весёлое — это реально работает. Без людей, без правильных ответов, без пафоса. Просто куча вычислений, которые модель тратит на то, чтобы спорить сама с собой и становиться чуть умнее.

Если коротко: CaT — это как спорить с самим собой в душе, только полезно

Ссылка на статью у меня в блоге, потому что у меня карма маленькая и тут я не могу всё опубликовать

—————

Менеджер? Давай сюда!
Ищи работу здесь
Технологии и архитектура

-3

Публикации

Ближайшие события