daniilshat Oct 13 2025 at 20:29

Андрей Карпатый представил nanochat — проект полного цикла создания LLM всего за 100 долларов

1 min

54K

Artificial IntelligenceMachine learning *

+67

Comments 29

PelmenBlin Oct 14 2025 at 02:39

Вот это интересно. Можно за $100 дообучить какую-нибудь VLM, чтобы pornhub нормально каталогизировать. А то по запросу student party половина вечеринок за 40.

LeshaRB Oct 14 2025 at 04:02

Вспомнилось ОВР ШОУ Весь в кредитах ...

В кино всегда не правда, особенно в порнофильмах

Paquito Oct 14 2025 at 12:40

Вооот, наконец-то достойные цели🤣

M_AJ Oct 14 2025 at 06:36

Просто это студенты заочного отделения :)

aprezi Oct 18 2025 at 12:59

насмотревшиеся универсиады

Dmitry_604 Oct 14 2025 at 08:03

"Учиться никогда не поздно"!

firnind Oct 14 2025 at 08:45

Ох уж эти «вечные студенты»…

SystemOutPrintln Oct 14 2025 at 10:58

Можно за $100 дообучить какую-нибудь VLM, чтобы pornhub нормально каталогизировать. А то по запросу student party половина вечеринок за 40.

Вот мы и нашли лучшее применения для "ИИ"!

aprezi Oct 18 2025 at 13:01

так на рессурсе не режиссёрские версии кино да что он там может накатолгизировать

egaoharu_kensei Oct 14 2025 at 08:44

Это очень круто, что выходят такие проекты. Я сам уже давно работаю над туториалом по созданию ChatGPT с нуля, но пока что нет времени его доделать:)

Хочу просто добавить, что Карпаты указал название проекта как "The best ChatGPT that $100 can buy.", но это не ChatGPT, к которому мы привыкли, поскольку в его проекте нет многих важных компонентов: sft этап с ручной разметкой полученных результатов, которые нужны в дальнейшем для RL этапа. Также в его проекте я не увидел всякие ускорялки обучения типа flash attention, qlora и т.д. Ну и конечно же ничего нет про RAG. Это не значит, что это плохо, просто, к сожалению, это далеко от того, что называется ChatGPT.

InfusionKRD Oct 14 2025 at 10:42

С удовольствием бы почитал вашу статью, периодически (в рамках хобби и спортивного интереса) - пытаюсь обучением сломать мозги мелким LLM моделям
По поводу flash attention, бегло бегал по коду Карпаты, про flash attention - встречал блок кода, про RAG да, не видел. Но... не суть. Суть в том, что из-за дурацкой токенизации русских слов, все модели не умеют в стихи на русском. (делал не дурацкую токенизацию, сломал мозг, забросил на половине составления словаря, не придумал как можно процесс автоматизировать)
Я о чём: быть может, статью разбить на блоки, чтобы из блоков можно было собрать что-то похожее на работающий проект...
А то вроде интернет большой - а ничего с хорошими пояснениями не найти.

egaoharu_kensei Oct 14 2025 at 11:34

Это будет набор статей. Ранее я такое уже делал с курсом ml-алгоритмы с нуля здесь же на Хабре. Код у меня в принципе по ChatGPT готов, но вот чтобы написать туториал по каждому из его компонентов, пока что нет времени)

По поводу Flash Attention. В коде Карпаты использует scaled_dot_product_attention из pytorch. Это тоже Flash Attention, но готовый. Кстати, в ближайшую неделю я выложу в Open Source Flash Attention 2 на Triton с поддержкой Turing+ архитектур (теперь можно будет работать даже на rtx 20 серии или на T4 GPU в colab и на Kaggle), а также с кастомным режимом, где вручную можно будет настраивать вычислительные ядра и ещё с многими наворотами. Также здесь на Хабре будет самый подробный туториал по данной технологии с реализацией с нуля на Гитхабе, начиная от описания того как пришли к механизму внимания с qkv проекциями и заканчивая принципом работы всех трёх версий Flash Attention и обзором моей реализации.

Kaiea Oct 15 2025 at 09:41

Chatgpt плохо справляется с поэзией и рифмами, но Suno каким-то образом пишет обалденные песни без ошибок.

Finterio Oct 16 2025 at 05:20

Я могу ошибаться, но я предполагаю, что трудности LLM с поэзией и рифмами вызваны отсутствием информации об ударениях на каждом слове обучающих данных. LLM при обучении просто не может из-за отсутствия этой информации найти закономерности, обеспечивающие рифмованность в стихах.

Хотя, думаю, если дополнить датасет звуковыми данными, то модель, уже будучи мультимодальной, сможет сопоставить каждому слову его произношение, что может улучшить её способность писать поэзию.

InfusionKRD Oct 16 2025 at 07:39

Да, если каждому слову сопоставить его звучание, это бы помогло, только это сложные модели.
Текстовые, разбивают русские слова на "часто встречающиеся фрагменты символов", по типу: [ча + сто + в + стр+ е + чаю + щи + еся + фраг + мент +ы]
Получились токены. И при такой разбивке совсем не очевидно что половинка одного токена должна рифмоваться с тремя другими токенами на соседней строке.
В целом, в интернете был у одного человека подход, где он делал токенизатор где каждая буква - отдельный токен (это самый простой способ), и у него LLM рифмует, правда смысла в стихах нет
Пример его рифмобота в телеге: https://t.me/verslibre_bot

Zalechi Oct 14 2025 at 16:07

Да, и для «обучения» — тоже зочу придраться. О каком обучение идет речь, когда запускается одной командой, а обучение то же самое.. звучит странно, но видимо это со мной что-то не так…

aret777 Oct 14 2025 at 08:47

Я правильно понимаю - ты берешь указанные мощности, программу и ... просто грузишь в нее кучу книжек на которых хочешь её обучить?

deworkers Oct 14 2025 at 10:20

не просто. данные для обучения нужно готовить (либо взять готовые, но тогда зачем все это?). А еще данные для проверки результата. Пока все выглядит как "потрать 100$ чтобы обучить готовыми данным то что уже есть у других, потому-что можешь".

PelmenBlin Oct 14 2025 at 11:20

Так ведь можно например корпоративной инфой накормить ИИ. И будет у тебя удобный help desk, как вариант.

riky Oct 14 2025 at 15:44

Смысла нет для практических целей, модель слабая будет. Это для обучения, чтобы процесс по шагам пощупать своими руками.

InfusionKRD Oct 16 2025 at 08:36

Верно, чтобы модель адекватно понимала "правила компании" нужна минимум модель от 7B, можно 3B + RAG, но это будет - такое себе, как только дело коснется логики происходящего.

aprezi Oct 18 2025 at 13:03

походу очередной развод сомневающихся сливать свои данные в инет или ещё нет - они же думают что всё будет private на этих арендованных мощностях

emerald_isle Oct 14 2025 at 09:55

Поясните, за сто долларов её можно обучить, а сколько потом стоить её обслуживать/использовать?.. для этого нужна облачная машинка послабее, необязательно держать восемь видеокарт круглосуточно же?

WannaCode Oct 14 2025 at 10:56

Небольшие модели можно на своем ПК запускать.

PelmenBlin Oct 14 2025 at 11:21

Смотря какими обьемами данных будешь обучать.

riky Oct 14 2025 at 15:53

От объема данных для обучения никак не зависит, хоть одна книга, хоть миллиард. А зависит от количества параметров в сети. В данном случае меньше 1В. Поэтому запустить можно будет на любом ПК даже без видеокарты, но и даже это не особо нужно будет, т.к. она едва едва слова будет связывать. А вот тут чтобы лучше слова связала объем данных для обучения имеет значение...

vkrestnikov Oct 14 2025 at 19:07

Судя по описанию проекта на github, обучение можно провести и на более слабых GPU, есть возможность подкрутить параметры в скрипте. Можно попробовать даже на домашних GPU, вроде RTX 4090, только скорее всего очень долго обучаться будет.

aprezi Oct 18 2025 at 13:04

как и человек

greatvovan Nov 2 2025 at 04:49

which occurs when light passes through tiny particles in the air. These particles are made up of blue and violet particles

Ну чушь же.