Pull to refresh
1
0
Дмитрий @Cairn

DA/DS Code Reviewer

Send message

Введение в различные алгоритмы обучения с подкреплением (Q-Learning, SARSA, DQN, DDPG)

Reading time8 min
Views24K

(Q-learning, SARSA, DQN, DDPG)

Обучение с подкреплением (RL далее ОП) относится к разновидности метода машинного обучения, при котором агент получает отложенное вознаграждение на следующем временном шаге, чтобы оценить свое предыдущее действие. Он в основном использовался в играх (например, Atari, Mario), с производительностью на уровне или даже превосходящей людей. В последнее время, когда алгоритм развивается в комбинации с нейронными сетями, он способен решать более сложные задачи.

В силу того, что существует большое количество алгоритмов ОП, не представляется возможным сравнить их все между собой. Поэтому в этой статье будут кратко рассмотрены лишь некоторые, хорошо известные алгоритмы.

1.    Обучение с подкреплением

Типичное ОП состоит из двух компонентов, Агента и Окружения.

Читать далее
Total votes 4: ↑2 and ↓20
Comments4

Information

Rating
Does not participate
Works in
Registered
Activity