Комментарии 9
Ожидал увидеть в статье описание того как получают Q, K и V ( кроме общих слов про бэкпроп, который есть в любом методе обучения) и архитектуре, и почему такой метод расчета оказался так важен для производительности системы в сравнении с другими архитектурами.
Таких статей много.Но ни одна не рассказывает об получении Q, K и V. Эта статья не уникальна, не оригинальна, просто повторение ранее выложенной в Сеть информации
Спасибо за критику, учту. Однако оговорюсь, что я именно поэтому метки и поставил: уровень - "легкий", тип публикации - "Туториал". Туториалов лучше иметь побольше разных, никогда не знаешь, кому какое объяснение лучше зайдет. Мне лично зашло это.
Про то, как вычислять Q, K и V - мне тоже интересно, буду копать в этом направлении, если найду что-то интересное, закину.
Из туториалов мне больше всего нравится Illustrated Transformer.
https://jalammar.github.io/illustrated-transformer/
Она очень подробно объясняет саму суть, и математика там по шагам расписана с числами и иллюстрациями, показывающие размерность данных.
Советую посмотреть код nanoGPT — он реально миниатюрный, и из него в целом можно понять, откуда берутся матрицы.
Так же советую серию видео From Zero to Hero от того же автора.
Модель Transformer предсказывает следующее слово в последовательности
Есть неточность. Это относится к GPT, но не ко всем трансформерным моделям
'Attention is all you need' простым языком