Хабр Курсы для всех
РЕКЛАМА
Практикум, Хекслет, SkyPro, авторские курсы — собрали всех и попросили скидки. Осталось выбрать!
Мир нашего размера кажется в основном непрерывным. Но для RL это проблема. Как принять бесконечное количество состояний бесконечное число раз и выполнить бесконечное количество действий бесконечное число раз? Если только обобщить некоторые усвоенные знания на невидимые состояния и действия. Обучение с учителем!
Он должен регулировать скорость каждого шарнира каждую миллисекунду, а человек вознаградит его только когда он сделает хороший сэндвич. Между этими вознаграждениями происходит много событий, и если промежуток между важным выбором и вознаграждением слишком велик, то любой современный алгоритм просто потерпит неудачу.
Обучение с подкреплением никогда не работало