Platun0v 29 авг 2019 в 16:35

Как я учил змейку играть в себя с помощью Q-Network

3 мин

12K

Python*Искусственный интеллектМашинное обучение*

Из песочницы

+20

Комментарии 12

vassabi 29 авг 2019 в 16:49

При съедании яблока sqrt(количество съеденных яблок) * 3.5.

а почему не простое линейное «количество съеденных яблок»?

Platun0v 29 авг 2019 в 16:53

Изначально была линейная функция, но с нелинейной обучение идет чуть-чуть быстрее

Gryphon88 29 авг 2019 в 17:25

А как называется обучение (и есть ли оно), когда даны не все характеристики окружения и агент сам дополняет описание?

Platun0v 29 авг 2019 в 17:53

Если я правильно понял вопрос, то это тоже будет обучением с подкреплением.

QtRoS 2 сен 2019 в 18:38

Может какие-то марковские процессы имеете ввиду?

Gryphon88 3 сен 2019 в 11:05

Посмотрю, спасибо. Если бы я знал, как оно называется, я б задал более конкретный вопрос :)

AndreaB3300 4 сен 2019 в 11:07

https://en.wikipedia.org/wiki/Partially_observable_Markov_decision_process Вероятно вы имеете ввиду это

Gryphon88 4 сен 2019 в 15:43

Сейчас читаю, но не могу понять: states должны быть известны заранее, или как-то могут вводиться новые по ходу выполнения модели?

vassabi 4 сен 2019 в 17:29

states — заранее, а неизвестность вводится при помощи beliefs (читайте вторую половину статьи в википедии)

Gryphon88 4 сен 2019 в 17:45

Читал, не понял (показалось, что belief размазывается по существующим состояниям и не может породить новое), потыкаю примеры тут, например.

Под новым состоянием я понимаю следующее:
пусть у нас есть робот, оснащённый камерой и манипулятором с динамометром, и задача классифицировать объекты. Часть объектов совпадает по внешнему виду, но различается по весу. У робота в базе есть описание объектов в виде визуальные дескрипторы+вес, но не для всех объектов. Нужно, чтобы робот мог добавить новый объект с описанием, если он не похож ни на какие предыдущие.

vassabi 4 сен 2019 в 19:14

Нужно, чтобы робот мог добавить новый объект с описанием, если он не похож ни на какие предыдущие.

так это не про поведение, это вам тогда нужно смотреть в другую сторону.

Gryphon88 5 сен 2019 в 13:43

Спасибо, аж стыдно за себя :) Тут лучше использовать иерархическую кластеризацию с дробление кластера, или, навскидку. какой-то другой метод посоветуете?

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Как я учил змейку играть в себя с помощью Q-Network

Комментарии 12

Публикации

Истории