Smile-Events Oct 31 2018 at 11:55

Обучение с подкреплением: разбираем на видеоиграх

7 min

Smile-Expo corporate blogMachine learning*

Comments 9

vivanov879 Oct 31 2018 at 15:30

Спасибо за то, что прочитали статью. В ней я затронул основные аспекты обучения с подкреплением. Если у вас возникнут какие-либо вопросы, с удовольствием на них отвечу.

Gryphon88 Oct 31 2018 at 19:37

Правильно ли я понял, что мы стараемся свести обучение к обучению с учителем и подобрать правильные исчислимые награды и их количество? Т.е. мы в любом случае считаем задачу разрешимой?

vivanov879 Nov 1 2018 at 09:10

Да — верно. Считаем разрешимой и применяем этот метод. Надеемся, что обучение сойдется.

NEWANDY Nov 1 2018 at 17:17

Спасибо за статью.
Действительно очень по верхам, но это хорошо позволяет лучше уловить основу, абстрагируясь от математики.

vivanov879 Nov 2 2018 at 13:21

Спасибо. Если вам интересно, чтобы я подробнее написал про какую-то тему, сообщите, а я в следующей статье ее попробую раскрыть.

NEWANDY Nov 2 2018 at 14:27

Лично мне будет всё интересно, так как в теме я плаваю. А дальше уже как у вас будут силы и желание)

Gryphon88 Nov 2 2018 at 19:38

Спасибо и от меня! С математикой найти не сложно, а вот философии и идеологии (что, когда, зачем, границы применимость и выгода) пишут мало.

Gryphon88 Nov 1 2018 at 21:29

Подобный подход был успешно применён в случаях, когда количество вариантов очень велико, и результат партии зависит от подготовки? Например, при игре не в Doom, а в Heroes или поздние Civ, когда нужно сначала составить армию из разнородных юнитов, а только потом воевать.

vivanov879 Nov 2 2018 at 13:20

Методы, описанные выше, работают для «рефлекторных» задач. То есть там, где важно быстро среагировать, особо не планируя.
В случае стратегий хорошо работают методы MCTS. Вообще, сложно отдать все на откуп машинному обучению — очень большое пространство состояний системы. То есть большое количество непохожих друг на друга ситуаций в игре. И успешные боты в стратегии отдают лишь часть на откуп обучению с подкреплением. Например, есть интересный репо github.com/deepmind/pysc2. Там полно мини игр. Таким образом, например, бот может быть запрограммирован делать что-то с точки зрения глобального развития, а какие-то мини-игры можно обучить с помощью обучения с подкреплением.