Comments 5
Дайте линк на первую часть, чтобы получить знание, которое позволит осмысленно прочитать эту часть
Декодер же включает три основные компонента.
Основных компонента.
Ж, тут не обязательна
🤩🙏
Спасибо огромное за материал 👍
Кто б действительно объяснил архитектуру трансформер, что там закладывают в multi-head attention, а то у меня сейчас понимание, что это случайный перебор. Все статьи о детальном разборе работы модели что я нашёл, они без начала и конца и чем инициализировать и почему так вообще не понимаю.
Запускаю на синтетических данных - отличный результат, запускаю на реальных данных - получаю полный хлам на выходе.
Sign up to leave a comment.
Детальный разбор архитектуры современных языковых моделей