Статьи / Профиль ITNOOB / Хабр

ITNOOB 7 янв 2020 в 14:14

Deep Reinforcement Learning: как научить пауков ходить

14 мин

21K

Python*Алгоритмы*Машинное обучение*Искусственный интеллектTensorFlow*

Туториал

Сегодня я расскажу, как я применил алгоритмы глубинного обучения с подкреплением для управления роботом. Вкратце, поведаю о том, как создать «чёрный ящик с нейросетями», который на входе принимает архитектуру робота, а на выходе выдаёт алгоритм, способный им управлять.

Основой решения является алгоритм Advantage Actor Critic (A2C) с оценкой Advantage через Generalized Advantage Estimation (GAE).

Под катом математика, реализация на TensorFlow и множество демок того, к каким способам ходьбы сошлись алгоритмы.

+26