Обновить

Математические основы рекуррентных нейросетей (детские вопросы и ответы, о которых не принято говорить)

Время на прочтение26 мин
Охват и читатели5.6K
Всего голосов 8: ↑8 и ↓0+9
Комментарии2

Комментарии 2

Оч хорошо. Особенно понравилось

Так градиент или ошибка?
Один из наиболее популярных практических методов применения метода градиентного спуска --- это метод, который я буду называть методом вычисления градиентов в обратном направлении. Тут искушённый читатель закономерно спросит, а почему бы не использовать общепринятое название метод обратного распространения ошибки?... И будет безусловно прав в своём удивлении, т.к. именно таков устоявшийся термин в русскоязычной литературе.
Так что же не так в этом термине?...
Термин "обратное распространение ошибки" некорректен и в дальнейшем невольно может приводить к некорректному изложению материала или даже ложным логическим умозаключениям
...никакого распространения ошибки не происходит. Рассматриваемый метод --- это просто удобный, наглядный и объективно очень красивый способ вычисления градиентов... но и только.
...мне пришлось потратить некоторое время и усилия, что бы осознать все эти тонкости.

...Здесь я пожалуй не могу пройти мимо главы метод обратного распространения ошибки из учебника по машинному обучению от "Яндекс.Образование". Да, название главы говорит о распространении ошибки... иногда вместо распространения ошибки используют английский термин backward propagation, но часто просто говорят о градиентах и производных.
В общем кажется, что неплохо бы навести порядок в русскоязычной терминологии... Если меня читают люди из "Яндекс.Образование", то может имеет смысл добавить в книгу небольшое разъяснение термина?
Иными словами это именно что метод вычисления градиентов, а не распространение какого-то мифического эфира.

это демонстрируерт насколько далеко большинство "айтишников" от инженерной математики. Но ради соблюдения объективности, скажу что в ~2015-м когда я знакомился с темой обучения нейросетей, устоявшимся термином был "метод градиентного спуска".

Метод градиентного спуска и сейчас вполне себе устоявшийся и используемый термин. Но этот термин не является взаимозаменяемым с т.н. "обратным распространением ошибки". Это разные методы, которые дополняют друг друга. Метод градиентного спуска предлагает способ изменения аргументов функции таким образом, чтобы новое значение функции стало меньше и в конце концов достигло своего локального минимума. Этот метод использует значения частных производных, но сам по себе не предлагает способа их вычисления. А вот "обратное распространение ошибки" как раз и предлагает такой способ. Можно использовать другой способ вычисления производных, но потом опять же применить метод градиентного спуска.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации