Хабр Курсы для всех
РЕКЛАМА
Практикум, Хекслет, SkyPro, авторские курсы — собрали всех и попросили скидки. Осталось выбрать!
При съедании яблока sqrt(количество съеденных яблок) * 3.5.а почему не простое линейное «количество съеденных яблок»?
Если я правильно понял вопрос, то это тоже будет обучением с подкреплением.
Может какие-то марковские процессы имеете ввиду?
https://en.wikipedia.org/wiki/Partially_observable_Markov_decision_process Вероятно вы имеете ввиду это
Нужно, чтобы робот мог добавить новый объект с описанием, если он не похож ни на какие предыдущие.
Как я учил змейку играть в себя с помощью Q-Network