Обновить

Обучение с подкреплением на основе обратной связи от человека (RLHF). История становления идеи. LLM, KL-контроль

Уровень сложностиПростой
Время на прочтение13 мин
Охват и читатели4.2K
Всего голосов 9: ↑9 и ↓0+12
Комментарии2

Комментарии 2

Метафора с Шогготом учит нас, что учить надо начинать с копирования себя, своих понятий и установок и лишь затем постепенно кормить модель фильтрованной информацией извне. И лишь только хорошо сфомированный ИИ с "крепким желудком" можно выпускать пастись "на улицу", но никак не наоборот.

Примерно как с детьми.

Ранее мне тоже казалось, что LLM вроде как бесполезны, но я нашел применение эмбеддингам слов и самой модели BERT. Расчеты близости векторов слов позволяют быстро найти все глаголы и другие сущности, связанные с заданной. Удобно то, что мы сразу получаем вероятность логических связей понятий и можем выстроить граф зависимостей или семантическую сеть. Сам BERT позволяет понять какая сущность может быть субъектом, а какая объектом. Самому искать все эти данные в текстовых корпусах очень нудное и не точное занятие. Удачи !

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации