Pull to refresh

Comments 11

UFO landed and left these words here

Векторы нужны, чтобы переводить дискретные токены в непрерывное пространство, где можно вычислять сходство и проводить "смысловую арифметику". Это облегчает обучение нейросети и помогает выявлять тонкие семантические связи, которые сложно реализовать напрямую с токенами.

Типа как например эээ сферические/эллиптические координаты драматически удобнее для задач расчета орбит, чем декартовы? (снова дилетантский вопрос)

Хорошая аналогия, если сильно упростить, то примерно так. Использование векторных представлений похоже на выбор удобной системы координат для орбит, но еще и обеспечивают непрерывное пространство. Тут работает не дискретная математика, а "аналоговая".

UFO landed and left these words here

Векторы остаются необходимы. Даже если явная смысловая арифметика уступила место работе нейросетей, сама архитектура нейросетей всегда требует перевода дискретных токенов в непрерывное пространство.

Это пространство позволяет нейросети эффективно обучаться с помощью дифференцируемых операций. В трансформерных архитектурах именно векторное представление позволяет вычислять внимания между токенами.

Рискну ответить как дилетант дилетанту: векторы в том числе экономят вычисления. Сложить или умножить два вектора, пусть и очень длинных сильно проще вычислительно, чем использовать полносвязный слой, где каждый нейрон связан с каждым. Поэтому в трансформере часть слоев - это блоки внимания. Там только линейные операции, причем часть операций - умножение векторов вместо умножения вектора на матрицк, как это было бы в полносвязной сети.

А вот более интересно, как влияет количество слоев. Ведь можно же сделать архитектуру плоской всего в два слоя, но увеличить количество "голов". Это по идеи улучшит работу с "многозначностью", а за одно и обучать такую структуру проще. Но так не делают. Значит промежуточные слои что-то дают. А что - не понятно. И вот сейчас еще и выясняется, что уже с первого слоя можно предсказать какой будет результат... Вопрос - зачем промежуточные слои?

UFO landed and left these words here

Сложение используется внутри самой сети. Т к это так называемая "residual" архитектура, то там результат каждого слоя складывается со входом. Таким образом сети дается возможность выключить влияние слоя вообще или ослабить его. Имеет ли здесь место именно "сложение смыслов" затрудняюсь сказать. Собственно у пеня и вопрос про слои отчасти поэтому возник. Кроме того в блоке внимания используется векторное умножение фактически с той же целью - определить взаимосвязь между токенами (читай векторами)

UFO landed and left these words here
Sign up to leave a comment.

Articles