Как стать автором
Поиск
Написать публикацию
Обновить

Комментарии 5

Только один нюанс. Обучение LLM и даже дообучение готовой модели требует весьма немаленьких затрат, т.к. всё упирается в дорогие вычислительные мощности и не просто в CPU, а GPU. При чем даже самая мощная видеокарта годится для этого.

Все так :) Новый Qwen и DeepSeek мы конечно не изобретем, а вот примитивный GPT-1 попробуем собрать :)

Разработка llm с нуля это когда ты не знаешь что такое

  • Токенизатор (BPE)

  • Эмбеддинги (Токенов и Позиционные)

  • Блок Декодера:

    • Multi-Head Attention

    • FeedForward-слои

    • Остаточные связи

  • Вероятностная генерация

И пилишь это всё с нуля. В заголовке явно ошибка 😁

Не понимаю, вы ожидали, что за пару тысяч вам дадут сразу университетское образование?

Это вам дорога в вышку, где за пару лет и миллион вы немного вкатитесь...

Человек старается, канал ведёт, курс запилил - лучше бы поддержали, или сами попробовали.

Не понимаю почему на статью накидали так много минусов(

Отличное начинание, передача знаний. Мне еще и концепция нравится - попробовать руками пройтись по базовым кирпичикам.

Выражаю поддержку автору!

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации