Крупное обновление в моем курсе Разработка LLM с нуля.

Напомню, в курсе мы с нуля разрабатываем модель GPT-1 и все необходимые для ее работы компоненты: токенизатор, эмбединги, механизм внимания и т.д. Вся разработка ведется на Python и низкоуровневых компонентах PyTorch.

Теперь, помимо GPT-1, нам предстоит реализовать кучу новых LLM:

  • GPT-2

  • Llama

  • Mistral

  • Mixtral

  • Gemma

В процессе их разработки мы изучим новые архитектурные фишки:

  • Pre-norm, RMSNorm — новые способы нормализации

  • GELU, SiLU, SwiGLU, GeGLU — новые функции активации

  • KV-cache, SWA — механизмы, позволяющие оптимизировать инференс

  • RoPE — новый способ кодирования позиционных эмбедингов

  • GQA, MQA — новые экономичные механизмы внимания

  • MoE — новая экономичная архитектура для FNN

Курс платный. Следующие две недели по промокоду TRIO предоставляется скидка 30%.

Мои курсы: Разработка LLM с нуля | Алгоритмы Машинного обучения с нуля