Pull to refresh

Comments 2

Первый слой содержит 512 нейронов и имеет количество входов равное количеству параметров состояния среды (3 параметра: расстояние до цели, сила и скорость шара)

а не многовато нейронов для 3 параметров?
После этого Агент получает из памяти случайный набор примеров за предыдущие периоды и формирует обучающий пакет(batch).

А для первого периода откуда они берутся?
При данных параметрах обучения сеть меньших размеров обучается хуже и менее стабильно. Но думаю можно уменьшить размеры сети, подобрав оптимальные значения параметров фактора дисконтирования, диапазона и скорости уменьшения выбора случайных действий.
Первые шаги симуляции проходят без обучения, пока не появится достаточно примеров для формирования первого batch-а для обучения.
Sign up to leave a comment.

Articles