Сотни людей собрались на конференции ICML на туториале про обучение с подкреплением на основе отзывов (reinforcement learning from human feedback, RLHF). Докладчик спросил, кто хочет размечать данные. Пять, быть может, десять человек подняло руки. И это никого не удивило.
Reinforcement Learning from Human Feedback: когда одной математики мало
Medium
13 min
Tutorial
Translation