Как стать автором
Обновить

Комментарии 12

При съедании яблока sqrt(количество съеденных яблок) * 3.5.
а почему не простое линейное «количество съеденных яблок»?
Изначально была линейная функция, но с нелинейной обучение идет чуть-чуть быстрее
А как называется обучение (и есть ли оно), когда даны не все характеристики окружения и агент сам дополняет описание?

Если я правильно понял вопрос, то это тоже будет обучением с подкреплением.

Может какие-то марковские процессы имеете ввиду?

Посмотрю, спасибо. Если бы я знал, как оно называется, я б задал более конкретный вопрос :)
Сейчас читаю, но не могу понять: states должны быть известны заранее, или как-то могут вводиться новые по ходу выполнения модели?
states — заранее, а неизвестность вводится при помощи beliefs (читайте вторую половину статьи в википедии)
Читал, не понял (показалось, что belief размазывается по существующим состояниям и не может породить новое), потыкаю примеры тут, например.

Под новым состоянием я понимаю следующее:
пусть у нас есть робот, оснащённый камерой и манипулятором с динамометром, и задача классифицировать объекты. Часть объектов совпадает по внешнему виду, но различается по весу. У робота в базе есть описание объектов в виде визуальные дескрипторы+вес, но не для всех объектов. Нужно, чтобы робот мог добавить новый объект с описанием, если он не похож ни на какие предыдущие.
Нужно, чтобы робот мог добавить новый объект с описанием, если он не похож ни на какие предыдущие.

так это не про поведение, это вам тогда нужно смотреть в другую сторону.
Спасибо, аж стыдно за себя :) Тут лучше использовать иерархическую кластеризацию с дробление кластера, или, навскидку. какой-то другой метод посоветуете?
Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации