Комментарии 7
Только один нюанс. Обучение LLM и даже дообучение готовой модели требует весьма немаленьких затрат, т.к. всё упирается в дорогие вычислительные мощности и не просто в CPU, а GPU. При чем даже самая мощная видеокарта годится для этого.
Разработка llm с нуля это когда ты не знаешь что такое
Токенизатор (BPE)
Эмбеддинги (Токенов и Позиционные)
Блок Декодера:
Multi-Head Attention
FeedForward-слои
Остаточные связи
Вероятностная генерация
И пилишь это всё с нуля. В заголовке явно ошибка 😁
Не понимаю почему на статью накидали так много минусов(
Отличное начинание, передача знаний. Мне еще и концепция нравится - попробовать руками пройтись по базовым кирпичикам.
Выражаю поддержку автору!
Не затронут главный философский вопрос: для чего нужны собственные LLM, и каково их практическое применение в жизни. Всё остальное - дело техники. Имхо, в будущем у каждой уважающей себя корпорации будет своя LLM (не агенты)
Стёпик - что-то знакомое, помоему это чувак, продающий платные курсы, которые лежат в открытых источниках, если покопать в интернете поглубже. Кстати, все платные курсы - нагенеренные с минимальными правками, часто неактуальные по теоретической части, и всегда неактуальны в практической. Пока их кому-то продадут, уже технологии поменяются. Удачи этим добрякам, а я дальше пойду смотреть бесплатные лекции из Гарварда и гуглить.

Разработка LLM с нуля