Search
Write a publication
Pull to refresh
4
0
Андрей @Cheshire12

User

Send message

Мне было интересно, как работает ГА. Поэтому подбор весов делал с использованием DEAP.

Я использовал генетический алгоритм для обучения нейронной сети, где "ошибка" неявно определяется через фитнес-функцию (время жизни в среде). Хорошее объяснение ГА у Балакирева C. https://proproprogs.ru/ga. Если подавать на вход последние 3 состояния + действие, то входов станет 16. Это усложнит задачу, возможен риск переобучения. Улучшение может быть незначительным, так как текущего состояния достаточно для оптимального управления.

Можно попробовать обучение с подкреплением с такой структурой:

Входной слой (10 нейронов) 
       ↓
Полносвязный слой (64 нейрона, ReLU)
       ↓
Полносвязный слой (64 нейрона, ReLU)
       ↓
Два параллельных выходных слоя:
       ├─ Направление (3 нейрона, softmax) - вероятность выбора -1, 0 или +1
       └─ Расстояние (2 нейрона, softmax) - вероятность выбора 1 см или 2 см

Information

Rating
3,267-th
Registered
Activity

Specialization

Прогаммист АСУТП
Lead
From 240 ₽
PLC programming
Python
Pytorch