Обновить

Комментарии 7

Только один нюанс. Обучение LLM и даже дообучение готовой модели требует весьма немаленьких затрат, т.к. всё упирается в дорогие вычислительные мощности и не просто в CPU, а GPU. При чем даже самая мощная видеокарта годится для этого.

Все так :) Новый Qwen и DeepSeek мы конечно не изобретем, а вот примитивный GPT-1 попробуем собрать :)

Разработка llm с нуля это когда ты не знаешь что такое

  • Токенизатор (BPE)

  • Эмбеддинги (Токенов и Позиционные)

  • Блок Декодера:

    • Multi-Head Attention

    • FeedForward-слои

    • Остаточные связи

  • Вероятностная генерация

И пилишь это всё с нуля. В заголовке явно ошибка 😁

Не понимаю, вы ожидали, что за пару тысяч вам дадут сразу университетское образование?

Это вам дорога в вышку, где за пару лет и миллион вы немного вкатитесь...

Человек старается, канал ведёт, курс запилил - лучше бы поддержали, или сами попробовали.

Не понимаю почему на статью накидали так много минусов(

Отличное начинание, передача знаний. Мне еще и концепция нравится - попробовать руками пройтись по базовым кирпичикам.

Выражаю поддержку автору!

Не затронут главный философский вопрос: для чего нужны собственные LLM, и каково их практическое применение в жизни. Всё остальное - дело техники. Имхо, в будущем у каждой уважающей себя корпорации будет своя LLM (не агенты)
Стёпик - что-то знакомое, помоему это чувак, продающий платные курсы, которые лежат в открытых источниках, если покопать в интернете поглубже. Кстати, все платные курсы - нагенеренные с минимальными правками, часто неактуальные по теоретической части, и всегда неактуальны в практической. Пока их кому-то продадут, уже технологии поменяются. Удачи этим добрякам, а я дальше пойду смотреть бесплатные лекции из Гарварда и гуглить.

Смысл курса не разработке своей LLM, а в доскональном изучении их внутренностей, на примере этой самой разработки :)

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации