Понимание Q-learning, проблема «Прогулка по скале» / Comments / Habr

Kilorad Oct 11 2019 at 07:36

Есть ли сейчас коммерческие применения RL?
Насколько хорошо QL и A2C решают задачи, когда цена ошибки высока — например, вождение?
Есть ли сейчас RL, которые при принятии решений могут учитывать скрытые переменные (например, знак, который мы уже проехали, но который всё ещё актуален) более 20-50 тактов?

Спасибо, что пишете про RL)

Понимание Q-learning, проблема «Прогулка по скале»

Comments 1

Articles