Pull to refresh

Comments 6

Отличная статья, анимаций бы побольше. Складывается хорошая серия статей. Поддерживаю продолжение
Следующая статья на подходе — про BERT.

Всё написанное очень похоже на рецепт волшебного зелья, где подробно написано в каком порядке и с какими заклинаниями и пассами класть какие ингредиенты, иногда добавлено, какой эффект даст, но оставлен открытым главный вопрос - почему это вообще работает?!

люди и сейчас думают, зачем это все работает)

После объяснения энкодеров автор устал описывать формулы :)
Матричная математика понятна, а слова только путают ибо математика однозначна, а слова это лирика.

Позиционное кодирование пока загадка.

Как я понял, энкодеры читают текст окном в некоторое количество токенов (размер контекста). Декодеры же принимают векторы от энкедеров по одному и одновременно читают свой предыдущий выход в рамках размера окна (размер контекста). Все, что вышло за окно контекста, трансформер забывает.

Sign up to leave a comment.

Articles