zishnik Aug 22 2018 at 17:41

Обучение с подкреплением в среде PyBullet

8 min

11K

Comments 2

ser-mk Aug 22 2018 at 22:10

Первый слой содержит 512 нейронов и имеет количество входов равное количеству параметров состояния среды (3 параметра: расстояние до цели, сила и скорость шара)

а не многовато нейронов для 3 параметров?

После этого Агент получает из памяти случайный набор примеров за предыдущие периоды и формирует обучающий пакет(batch).

А для первого периода откуда они берутся?

zishnik Aug 23 2018 at 04:48

При данных параметрах обучения сеть меньших размеров обучается хуже и менее стабильно. Но думаю можно уменьшить размеры сети, подобрав оптимальные значения параметров фактора дисконтирования, диапазона и скорости уменьшения выбора случайных действий.
Первые шаги симуляции проходят без обучения, пока не появится достаточно примеров для формирования первого batch-а для обучения.