Хабр Курсы для всех
РЕКЛАМА
Практикум, Хекслет, SkyPro, авторские курсы — собрали всех и попросили скидки. Осталось выбрать!
Первый слой содержит 512 нейронов и имеет количество входов равное количеству параметров состояния среды (3 параметра: расстояние до цели, сила и скорость шара)
После этого Агент получает из памяти случайный набор примеров за предыдущие периоды и формирует обучающий пакет(batch).
Обучение с подкреплением в среде PyBullet