Комментарии 1
Есть ли сейчас коммерческие применения RL?
Насколько хорошо QL и A2C решают задачи, когда цена ошибки высока — например, вождение?
Есть ли сейчас RL, которые при принятии решений могут учитывать скрытые переменные (например, знак, который мы уже проехали, но который всё ещё актуален) более 20-50 тактов?
Спасибо, что пишете про RL)
Насколько хорошо QL и A2C решают задачи, когда цена ошибки высока — например, вождение?
Есть ли сейчас RL, которые при принятии решений могут учитывать скрытые переменные (например, знак, который мы уже проехали, но который всё ещё актуален) более 20-50 тактов?
Спасибо, что пишете про RL)
Зарегистрируйтесь на Хабре, чтобы оставить комментарий
Понимание Q-learning, проблема «Прогулка по скале»