welcome2hype 3 мая в 16:11

Глубокое Q-обучение (DQN)

Сложный

9 мин

3.4K

Data Mining*Математика*Алгоритмы*R*Искусственный интеллект

Комментарии 5

nikolz 3 мая в 17:05

Однако классические методы развиваются уже около 100 лет, тогда как технологии глубокого обучения начали свой эволюционный путь не так давно,

точнее, более 50-ти лет назад.

welcome2hype 4 мая в 15:35

Хорощо, что вы подняли эту тему! Давайте смотреть:
1. 1958 год появление персептрона Розенблатта - простейшая сеть прямого распространения. Далее Розенблатта развил свою теорию до многослойных нейронных сетей.
2. 1986 год несколько ученых, включая Джеффри Хинтона разрабатывают метод обратного распространения ошибки, делая возможным обучение многослойных нейронных сетей. Хинтона выделяю потому что именно он в итоге получил Нобелевскую премию.
3. 1989 Ян Лекун применяет метод обратного распространения для распознавания текста
4. В 2006 году Хинтон снова делает прорыв архитектурой Deep Belief Network. Как я понял именно тут и появился термин Deep learning , судя по той же Википедии
5. 2012 появление AlexNet которая сделала настоящий прорыв в точности классификации изображений
...

Наверное можно взять любую веху из перечисленных и сказать, что глубокое обучение начало свой путь именно тогда.

Flokis_guy 4 мая в 07:45

ЕЕЕЕЕ, я нашёл, что кто-то ещё рассказывает про механизм внимания через условное матожидание. Так что сразу ставлю лайк, не глядя :)

Кстати, странно, что такая интерпретация внимания людям на Хабре не зашла.

triller599 4 мая в 11:10

Предположу, что стиль изложения больше подходит специалистам-теоретикам, чем тем, кто решает практические задачи. Остальным, чтобы разобратсья в этих формулах, необходимо прилагать усилия, пусть и не большие. А смысла в этом сокрей всего не будет, раз не применяется широко..

Автору: если Вы заинтересованы в обсуждении данной темы, Вы бы подготовили наглядный пример, допустим что-нибудь на ViT для картинок и показали разницу, между классическим подходом и вашим.

welcome2hype 4 мая в 15:55

Спасибо за совет по поводу ViT. Слои нейронной сети я действительно не изобразил, хотя там не то чтобы много чего изображать. Тем не менее, исходный код доступен публично.
Основной объем формул был про архитектуру DQN, а эта архитектура имеет широкое распространение и является основой обучения с подкреплением: абсолютным off-policy алгоритмом, своеобразным антагонистом on-policy. Идея была в том, чтобы показать для TSP реализацию на DQN как противоположность TSP Transformers, которые используют on-policy подход и которыми я планирую завершить свою серию заметок.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий