MrsWallbreaker Aug 3 2024 at 06:00RLHF. История становления идеи — 3. Supervised finetune, Протокольный сбор обратной связи, Batch RLLevel of difficultyEasyReading time8 minViews1.2KMachine learning * Artificial IntelligenceNatural Language Processing * Total votes 3: ↑2 and ↓1+1Add to bookmarks14Comments0
RLHF. История становления идеи — 3. Supervised finetune, Протокольный сбор обратной связи, Batch RL