Я использовал генетический алгоритм для обучения нейронной сети, где "ошибка" неявно определяется через фитнес-функцию (время жизни в среде). Хорошее объяснение ГА у Балакирева C. https://proproprogs.ru/ga. Если подавать на вход последние 3 состояния + действие, то входов станет 16. Это усложнит задачу, возможен риск переобучения. Улучшение может быть незначительным, так как текущего состояния достаточно для оптимального управления.
Мне было интересно, как работает ГА. Поэтому подбор весов делал с использованием DEAP.
Я использовал генетический алгоритм для обучения нейронной сети, где "ошибка" неявно определяется через фитнес-функцию (время жизни в среде). Хорошее объяснение ГА у Балакирева C. https://proproprogs.ru/ga. Если подавать на вход последние 3 состояния + действие, то входов станет 16. Это усложнит задачу, возможен риск переобучения. Улучшение может быть незначительным, так как текущего состояния достаточно для оптимального управления.
Можно попробовать обучение с подкреплением с такой структурой: