Pull to refresh

Comments 9

Спасибо за то, что прочитали статью. В ней я затронул основные аспекты обучения с подкреплением. Если у вас возникнут какие-либо вопросы, с удовольствием на них отвечу.
Правильно ли я понял, что мы стараемся свести обучение к обучению с учителем и подобрать правильные исчислимые награды и их количество? Т.е. мы в любом случае считаем задачу разрешимой?
Да — верно. Считаем разрешимой и применяем этот метод. Надеемся, что обучение сойдется.
Спасибо за статью.
Действительно очень по верхам, но это хорошо позволяет лучше уловить основу, абстрагируясь от математики.
Спасибо. Если вам интересно, чтобы я подробнее написал про какую-то тему, сообщите, а я в следующей статье ее попробую раскрыть.
Лично мне будет всё интересно, так как в теме я плаваю. А дальше уже как у вас будут силы и желание)
Спасибо и от меня! С математикой найти не сложно, а вот философии и идеологии (что, когда, зачем, границы применимость и выгода) пишут мало.
Подобный подход был успешно применён в случаях, когда количество вариантов очень велико, и результат партии зависит от подготовки? Например, при игре не в Doom, а в Heroes или поздние Civ, когда нужно сначала составить армию из разнородных юнитов, а только потом воевать.
Методы, описанные выше, работают для «рефлекторных» задач. То есть там, где важно быстро среагировать, особо не планируя.
В случае стратегий хорошо работают методы MCTS. Вообще, сложно отдать все на откуп машинному обучению — очень большое пространство состояний системы. То есть большое количество непохожих друг на друга ситуаций в игре. И успешные боты в стратегии отдают лишь часть на откуп обучению с подкреплением. Например, есть интересный репо github.com/deepmind/pysc2. Там полно мини игр. Таким образом, например, бот может быть запрограммирован делать что-то с точки зрения глобального развития, а какие-то мини-игры можно обучить с помощью обучения с подкреплением.
Sign up to leave a comment.