Rummar Feb 21 at 19:11

От RLHF к DPO и дальше: как мы разучились бояться и полюбили выравнивание LLM

Hard

26 min

7.6K

Natural Language Processing * Open source * Python * Artificial IntelligenceMachine learning *

Review

+5

Comments 1

avshkol Feb 23 at 08:03

Отличная обзорная статья по методам файнтюнинга!

Но задача "как собрать хороший датасет" остаётся приоритетной...

Sign up to leave a comment.