О трёх существенных недостатках известных алгоритмов обучения с подкреплением (и о том, как их устранить) / Comments / Habr

ValeriyPu Feb 17 2023 at 07:51

Неудовлетворительные обновления градиента политики. Например, очень малые шаги, когда зависают в локальном оптимуме, или большие шаги, из-за которых упускают наибольшее вознаграждение.

Беда, правда, проще использовать N градиентных спусков с различными начальными точками, чем пытаться как-то и делать небольшие шаги, и не ждать целую вечность. Например, А* с миллионом начальных точек и градиентным спуском только по наиболее полезным. Эдакий аналог дождя для трехмерной поверхности (правда, работающий и для N-мерных функций). Это вполне по силам даже SIMD, не говоря уже про GPU ).

Алгоритмы, основанные на аппроксимации функции полезности, систематически выбирают действия с завышенной полезностью.

Зачем пытаться превратить эвристики, оптимальные для А* в неоптимальные дабы решить проблему "лишних миллионов шагов". Потеря оптимальности для поиска с эвристикой может вылиться в крайне субоптимальные решения.

Будет время, напишу статью и покажу что получается в таком случае.
Благо, подобный алгоритм будет примерно в 10^6 раз менее подвержен застреванию в локальном, а не глобальном оптимуме, а с точки зрения количества вычислений может быть примерно сопоставим с классическим градиентным спуском (спасибо эвристикам).