Обучение с подкреплением (RL) — одна из самых перспективных техник машинного обучения, которая сейчас активно развивается. Здесь агент ИИ получает положительное вознаграждение за правильные действия, и отрицательное — за неправильные. Такой метод
кнута и пряника прост и универсален. С его помощью DeepMind научила алгоритм
DQN играть в старые видеоигры Atari, а
AlphaGoZero — в древнюю игру Go. Так OpenAI обучила алгоритм
OpenAI-Five играть в современную видеоигру Dota, а Google научила роботизированные руки
захватывать новые объекты. Несмотря на успехи RL, до сих пор есть много проблем, которые снижают эффективность этой техники.
Алгоритмам RL
трудно работать в среде, где агент редко получает обратную связь. Но это типично для реального мира. В качестве примера, представьте себе поиск любимого сыра в большом лабиринте, как супермаркет. Вы ищете и ищете отдел с сырами, но никак не находите. Если на каждом шагу не получать ни «кнута», ни «пряника», то невозможно сказать, в правильном ли направлении вы движетесь. В отсутствие награды что мешает вам вечно бродить по кругу? Ничего, кроме, возможно, вашего любопытства. Оно мотивирует перейти в продуктовый отдел, который выглядит незнакомым.