Спасибо за совет по поводу ViT. Слои нейронной сети я действительно не изобразил, хотя там не то чтобы много чего изображать. Тем не менее, исходный код доступен публично. Основной объем формул был про архитектуру DQN, а эта архитектура имеет широкое распространение и является основой обучения с подкреплением: абсолютным off-policy алгоритмом, своеобразным антагонистом on-policy. Идея была в том, чтобы показать для TSP реализацию на DQN как противоположность TSP Transformers, которые используют on-policy подход и которыми я планирую завершить свою серию заметок.
Хорощо, что вы подняли эту тему! Давайте смотреть: 1. 1958 год появление персептрона Розенблатта - простейшая сеть прямого распространения. Далее Розенблатта развил свою теорию до многослойных нейронных сетей. 2. 1986 год несколько ученых, включая Джеффри Хинтона разрабатывают метод обратного распространения ошибки, делая возможным обучение многослойных нейронных сетей. Хинтона выделяю потому что именно он в итоге получил Нобелевскую премию. 3. 1989 Ян Лекун применяет метод обратного распространения для распознавания текста 4. В 2006 году Хинтон снова делает прорыв архитектурой Deep Belief Network. Как я понял именно тут и появился термин Deep learning , судя по той же Википедии 5. 2012 появление AlexNet которая сделала настоящий прорыв в точности классификации изображений ...
Наверное можно взять любую веху из перечисленных и сказать, что глубокое обучение начало свой путь именно тогда.
Сожалею, что заметка не помогла вам лучше разобраться в этой теме. Вы правильно заметили, что мой текст не отвечает на вопрос "Почему внимание выделяет важное слово?". Я рекомендую внимательнее ознакомиться с другой пукбликацией на эту тему: Трансформер в картинках Там, на мой взгляд, содержится ответ на ваш вопрос.
Да, верно, можно заменить диагональные элементы матрицы расстояний чем то большим: сделать что-то вроде `diag(dist_mtrx) <- 1e6` и потом убрать строчку из постановки MIP: `set_bounds(x[i, i], ub = 0, i = 1:n_cities)`. Должен получится точно такой же результат. Собственно, такой способ моделирования даже предпочтительнее для тензорных вычислений. Идея формирования маски (mask), то есть запрета повторного выбора вершины приблизительно так и работает. Ну или, если формулировать в контексте задачи перевода текстов то маска, наложенная на токен ограничивает выбор такого токена при формирования текста перевода нейронной сетью.
Люди пишут боты для растущего рынка и даже не понимают какая основа у этого роста. Естественно, создаётся впечатление, что поймали за хвост птицу удачи. Потом, когда рынок схлопывается на том же фундаменте начинаются крокодильи слезы. Но нет, мы не верим в фундамент. Все это случайные процессы и гос.компании в РФ никогда не зажимали дивы, а то что Роснефть из-за этого всегда торговалась с дисконтом - это другое)))
в любом случае автору респект, что поделился
Информация
В рейтинге
Не участвует
Откуда
Санкт-Петербург, Санкт-Петербург и область, Россия
Спасибо за совет по поводу ViT. Слои нейронной сети я действительно не изобразил, хотя там не то чтобы много чего изображать. Тем не менее, исходный код доступен публично.
Основной объем формул был про архитектуру DQN, а эта архитектура имеет широкое распространение и является основой обучения с подкреплением: абсолютным off-policy алгоритмом, своеобразным антагонистом on-policy. Идея была в том, чтобы показать для TSP реализацию на DQN как противоположность TSP Transformers, которые используют on-policy подход и которыми я планирую завершить свою серию заметок.
Хорощо, что вы подняли эту тему! Давайте смотреть:
1. 1958 год появление персептрона Розенблатта - простейшая сеть прямого распространения. Далее Розенблатта развил свою теорию до многослойных нейронных сетей.
2. 1986 год несколько ученых, включая Джеффри Хинтона разрабатывают метод обратного распространения ошибки, делая возможным обучение многослойных нейронных сетей. Хинтона выделяю потому что именно он в итоге получил Нобелевскую премию.
3. 1989 Ян Лекун применяет метод обратного распространения для распознавания текста
4. В 2006 году Хинтон снова делает прорыв архитектурой Deep Belief Network. Как я понял именно тут и появился термин Deep learning , судя по той же Википедии
5. 2012 появление AlexNet которая сделала настоящий прорыв в точности классификации изображений
...
Наверное можно взять любую веху из перечисленных и сказать, что глубокое обучение начало свой путь именно тогда.
Сожалею, что заметка не помогла вам лучше разобраться в этой теме. Вы правильно заметили, что мой текст не отвечает на вопрос "Почему внимание выделяет важное слово?". Я рекомендую внимательнее ознакомиться с другой пукбликацией на эту тему: Трансформер в картинках
Там, на мой взгляд, содержится ответ на ваш вопрос.
да, думаю, это весьма приличное стартовое решение
Да, верно, можно заменить диагональные элементы матрицы расстояний чем то большим: сделать что-то вроде `diag(dist_mtrx) <- 1e6` и потом убрать строчку из постановки MIP: `set_bounds(x[i, i], ub = 0, i = 1:n_cities)`. Должен получится точно такой же результат.
Собственно, такой способ моделирования даже предпочтительнее для тензорных вычислений. Идея формирования маски (mask), то есть запрета повторного выбора вершины приблизительно так и работает. Ну или, если формулировать в контексте задачи перевода текстов то маска, наложенная на токен ограничивает выбор такого токена при формирования текста перевода нейронной сетью.
Люди пишут боты для растущего рынка и даже не понимают какая основа у этого роста. Естественно, создаётся впечатление, что поймали за хвост птицу удачи. Потом, когда рынок схлопывается на том же фундаменте начинаются крокодильи слезы. Но нет, мы не верим в фундамент. Все это случайные процессы и гос.компании в РФ никогда не зажимали дивы, а то что Роснефть из-за этого всегда торговалась с дисконтом - это другое)))
в любом случае автору респект, что поделился