Обновить

Детальный разбор архитектуры современных языковых моделей

Уровень сложностиПростой
Время на прочтение9 мин
Охват и читатели30K
Всего голосов 22: ↑20 и ↓2+26
Комментарии5

Комментарии 5

Дайте линк на первую часть, чтобы получить знание, которое позволит осмысленно прочитать эту часть

а первая часть точно существует?

Декодер же включает три основные компонента.

  • Основных компонента.

  • Ж, тут не обязательна

  • 🤩🙏

Спасибо огромное за материал 👍

Кто б действительно объяснил архитектуру трансформер, что там закладывают в multi-head attention, а то у меня сейчас понимание, что это случайный перебор. Все статьи о детальном разборе работы модели что я нашёл, они без начала и конца и чем инициализировать и почему так вообще не понимаю.

Запускаю на синтетических данных - отличный результат, запускаю на реальных данных - получаю полный хлам на выходе.

запускаю на реальных данных — получаю полный хлам на выходе

«Ты это... зря слона ругаешь!» ©

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Информация

Сайт
bothub.ru
Дата регистрации
Дата основания
Численность
11–30 человек
Местоположение
Россия
Представитель
Greg Ewin