klizardin Jun 5 2019 at 09:58

Архитектура нейронной сети для реализации алгоритма RL с возможностью задания одновременно выполняющихся действий

4 min

4.3K

Machine learning *

+12

Comments 6

Geotyper Jun 6 2019 at 10:37

Так как из статьи не все понял, решил начать с примеров, если взять Тетрис, сколько времени(или итераций) он обучается до минимального уровня игры? запустил, но что-то прогресс не прирастает, пока 7000 итераций.

klizardin Jun 6 2019 at 11:18

Долго обучается. Плюс применялось transfer learning для того, чтобы в начале обучить CNN часть. Иначе процесс и длительный и сходимость намного хуже. Уже есть обученные модели (они в каталоге tetris/models). Нужно было мне писать изначально очень хорошо оптимизированный код на C++ и подключать вмешними модулями к питону.

Также отмечу, что модели не оптимально обученные (как CNN часть так и основная модель). У меня тоже не хватило терпения на то, чтобы дождаться нужного результата. Да и задумывались проекты не как улучшение результатов RL алгоритмов, а только как демонстрация подхода архитектуры нейронной сети.

klizardin Jun 6 2019 at 11:24

Тетрис сам по себе применяется как задача для тестирования алгоритмов RL. (Т.к. тетрис достаточно сложная задача.) Но оптимизировать ни сеть ни параметры обучения не было вычислительных ресурсов. Плюс CNN архитектура сети можно было сделать более совершенной. Но опять же в демонстрации архитектуры сети не стал это делать.

pdima Jun 6 2019 at 11:28

не совсем понятно какую проблему такой подход пытается решить и как. если необходимо реализовать выбор сразу нескольких одновременно выполняемых действий — почему просто не использовать несколько групп выходов с своими софтмаксами?

klizardin Jun 6 2019 at 11:35

Группа softmax тоже подходящий вариант, да

klizardin Jun 6 2019 at 12:18

Преимуществами (по сравнению с группой softmax) можно назвать, что у нас есть что-то вроде encoding-ов для каждого из действий из входных данных. Т.е. расширяются возможности для transfer learning. (Это упоминается в конце статьи.)