Rummar21 фев в 19:11От RLHF к DPO и дальше: как мы разучились бояться и полюбили выравнивание LLMУровень сложностиСложныйВремя на прочтение26 минОхват и читатели7.3KNatural Language Processing * Open source * Python * Искусственный интеллектМашинное обучение * ОбзорВсего голосов 6: ↑5 и ↓1+5Добавить в закладки18Комментарии1
avshkol23 фев в 08:03Отличная обзорная статья по методам файнтюнинга! Но задача "как собрать хороший датасет" остаётся приоритетной...
От RLHF к DPO и дальше: как мы разучились бояться и полюбили выравнивание LLM