Rummar Feb 21 at 19:11От RLHF к DPO и дальше: как мы разучились бояться и полюбили выравнивание LLMLevel of difficultyHardReading time26 minReach and readers7.6KNatural Language Processing * Open source * Python * Artificial IntelligenceMachine learning * ReviewTotal votes 6: ↑5 and ↓1+5Add to bookmarks18Comments1
avshkol Feb 23 at 08:03Отличная обзорная статья по методам файнтюнинга! Но задача "как собрать хороший датасет" остаётся приоритетной...
От RLHF к DPO и дальше: как мы разучились бояться и полюбили выравнивание LLM