Pull to refresh

Comments 6

Так как из статьи не все понял, решил начать с примеров, если взять Тетрис, сколько времени(или итераций) он обучается до минимального уровня игры? запустил, но что-то прогресс не прирастает, пока 7000 итераций.
Долго обучается. Плюс применялось transfer learning для того, чтобы в начале обучить CNN часть. Иначе процесс и длительный и сходимость намного хуже. Уже есть обученные модели (они в каталоге tetris/models). Нужно было мне писать изначально очень хорошо оптимизированный код на C++ и подключать вмешними модулями к питону.

Также отмечу, что модели не оптимально обученные (как CNN часть так и основная модель). У меня тоже не хватило терпения на то, чтобы дождаться нужного результата. Да и задумывались проекты не как улучшение результатов RL алгоритмов, а только как демонстрация подхода архитектуры нейронной сети.
Тетрис сам по себе применяется как задача для тестирования алгоритмов RL. (Т.к. тетрис достаточно сложная задача.) Но оптимизировать ни сеть ни параметры обучения не было вычислительных ресурсов. Плюс CNN архитектура сети можно было сделать более совершенной. Но опять же в демонстрации архитектуры сети не стал это делать.
не совсем понятно какую проблему такой подход пытается решить и как. если необходимо реализовать выбор сразу нескольких одновременно выполняемых действий — почему просто не использовать несколько групп выходов с своими софтмаксами?
Группа softmax тоже подходящий вариант, да
Преимуществами (по сравнению с группой softmax) можно назвать, что у нас есть что-то вроде encoding-ов для каждого из действий из входных данных. Т.е. расширяются возможности для transfer learning. (Это упоминается в конце статьи.)
Sign up to leave a comment.

Articles