Комментарии 12
При съедании яблока sqrt(количество съеденных яблок) * 3.5.а почему не простое линейное «количество съеденных яблок»?
А как называется обучение (и есть ли оно), когда даны не все характеристики окружения и агент сам дополняет описание?
Если я правильно понял вопрос, то это тоже будет обучением с подкреплением.
Может какие-то марковские процессы имеете ввиду?
https://en.wikipedia.org/wiki/Partially_observable_Markov_decision_process Вероятно вы имеете ввиду это
Сейчас читаю, но не могу понять: states должны быть известны заранее, или как-то могут вводиться новые по ходу выполнения модели?
states — заранее, а неизвестность вводится при помощи beliefs (читайте вторую половину статьи в википедии)
Читал, не понял (показалось, что belief размазывается по существующим состояниям и не может породить новое), потыкаю примеры тут, например.
Под новым состоянием я понимаю следующее:
пусть у нас есть робот, оснащённый камерой и манипулятором с динамометром, и задача классифицировать объекты. Часть объектов совпадает по внешнему виду, но различается по весу. У робота в базе есть описание объектов в виде визуальные дескрипторы+вес, но не для всех объектов. Нужно, чтобы робот мог добавить новый объект с описанием, если он не похож ни на какие предыдущие.
Под новым состоянием я понимаю следующее:
пусть у нас есть робот, оснащённый камерой и манипулятором с динамометром, и задача классифицировать объекты. Часть объектов совпадает по внешнему виду, но различается по весу. У робота в базе есть описание объектов в виде визуальные дескрипторы+вес, но не для всех объектов. Нужно, чтобы робот мог добавить новый объект с описанием, если он не похож ни на какие предыдущие.
Нужно, чтобы робот мог добавить новый объект с описанием, если он не похож ни на какие предыдущие.
так это не про поведение, это вам тогда нужно смотреть в другую сторону.
Зарегистрируйтесь на Хабре, чтобы оставить комментарий
Как я учил змейку играть в себя с помощью Q-Network