Comments 6
Спасибо за статью )
Всё написанное очень похоже на рецепт волшебного зелья, где подробно написано в каком порядке и с какими заклинаниями и пассами класть какие ингредиенты, иногда добавлено, какой эффект даст, но оставлен открытым главный вопрос - почему это вообще работает?!
После объяснения энкодеров автор устал описывать формулы :)
Матричная математика понятна, а слова только путают ибо математика однозначна, а слова это лирика.
Позиционное кодирование пока загадка.
Как я понял, энкодеры читают текст окном в некоторое количество токенов (размер контекста). Декодеры же принимают векторы от энкедеров по одному и одновременно читают свой предыдущий выход в рамках размера окна (размер контекста). Все, что вышло за окно контекста, трансформер забывает.
Transformer в картинках