Да — действительно — про Марио Карт вышло не до конца. Старался показать в посте, как компьютер видит игру. В Марио Карт про визуализацию, пожалуй, нечего добавить.
Методы, описанные выше, работают для «рефлекторных» задач. То есть там, где важно быстро среагировать, особо не планируя.
В случае стратегий хорошо работают методы MCTS. Вообще, сложно отдать все на откуп машинному обучению — очень большое пространство состояний системы. То есть большое количество непохожих друг на друга ситуаций в игре. И успешные боты в стратегии отдают лишь часть на откуп обучению с подкреплением. Например, есть интересный репо github.com/deepmind/pysc2. Там полно мини игр. Таким образом, например, бот может быть запрограммирован делать что-то с точки зрения глобального развития, а какие-то мини-игры можно обучить с помощью обучения с подкреплением.
Спасибо за то, что прочитали статью. В ней я затронул основные аспекты обучения с подкреплением. Если у вас возникнут какие-либо вопросы, с удовольствием на них отвечу.
В случае стратегий хорошо работают методы MCTS. Вообще, сложно отдать все на откуп машинному обучению — очень большое пространство состояний системы. То есть большое количество непохожих друг на друга ситуаций в игре. И успешные боты в стратегии отдают лишь часть на откуп обучению с подкреплением. Например, есть интересный репо github.com/deepmind/pysc2. Там полно мини игр. Таким образом, например, бот может быть запрограммирован делать что-то с точки зрения глобального развития, а какие-то мини-игры можно обучить с помощью обучения с подкреплением.