
Бывший директор по ИИ в Tesla Андрей Карпати обучил модель, которая превосходит GPT-2 по бенчмарку CORE, потратив $73 и 3 часа на одном узле из восьми GPU H100. Когда OpenAI тренировала оригинальную GPT-2 (1,5 млрд параметров) в 2019 году, это заняло неделю на 32 чипах TPU v3 и обошлось примерно в $43 000.
Снижение стоимости в 600 раз за семь лет — результат улучшений на всех уровнях: более быстрое железо (H100 вместо TPU v3), оптимизированный софт (Flash Attention 3, torch.compile), алгоритмические находки (оптимизатор Muon, скользящее окно внимания) и качественные данные (FineWeb-edu). По оценке Карпати, каждый год стоимость обучения GPT-2 падает примерно до 40% от прошлогодней.
Проект nanochat уместился в ~1000 строк кода. Модель использует 768 млн параметров, 24 слоя и набор современных архитектурных решений: RoPE вместо обучаемых позиционных эмбеддингов, RMSNorm, нормализацию Q/K, активацию ReLU² и раздельный эмбеддинг/анэмбеддинг.
Карпати запустил лидерборд, где участники соревнуются, кто быстрее всех обучит модель до уровня GPT-2 на восьми H100. Текущий рекорд — 3,04 часа. Оригинальную GPT-2 OpenAI тренировала больше недели на 32 чипах TPU v3, что обошлось примерно в $43 000.
P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.
