Дорогой автор, я понимаю ваше недовольство современными методами. Но если бы вы уделяли время проблемам современной стохастической оптимизации, вы бы поняли, почему люди обновляют веса градиентным способом.
Прочитав вашу монографию, я лишь замечу, что вы в точности изобрели оптимизационную постановку задачи RL и оптимизируете ее солвером 0 порядка. И никто в здравом уме никогда такую схему использовать не будет ввиду просто огромной дисперсии «градиента», который здесь неявно присутствует (вы же в каждый момент времени не оптимизируетесь на всем многообразии, а только в области)
Без единого эксперимента на реальной задачке (классификация циферок) вы не увидите, что идентификация вашей стратегии занимает на порядок больше времени, чем у конвенциональных методов
Дорогой автор, я понимаю ваше недовольство современными методами. Но если бы вы уделяли время проблемам современной стохастической оптимизации, вы бы поняли, почему люди обновляют веса градиентным способом.
Прочитав вашу монографию, я лишь замечу, что вы в точности изобрели оптимизационную постановку задачи RL и оптимизируете ее солвером 0 порядка. И никто в здравом уме никогда такую схему использовать не будет ввиду просто огромной дисперсии «градиента», который здесь неявно присутствует (вы же в каждый момент времени не оптимизируетесь на всем многообразии, а только в области)
Без единого эксперимента на реальной задачке (классификация циферок) вы не увидите, что идентификация вашей стратегии занимает на порядок больше времени, чем у конвенциональных методов