Помните ту фольклорную фразу?
До управляемого термоядерного синтеза осталось 20 лет
И сколько бы лет не прошло, мы находимся всё в тех же 20 годах от него :)
К сожалению, AGI к нам ещё не пришёл (это модель ИИ, которая может и будет выполнять все те же задачи, что и средний человек, а то и лучше, включая самопрограммирование), а потому статью написал ваш покорный слуга — автор блога Сервер Молл.
На мой взгляд, даже самые продвинутые модели пока далеки от качественных, живых и интересных текстов — чтобы не тянуло в сон от первых же строк. Чтобы структура была рваной уникальной; чтобы где-то опечатка закралась, и можно было написать автору о его неграмотности (я только за, пишите); чтобы тезисы не совпадали с вашими, и можно было устроить холивар в комментариях. Последние бывают интереснее самой статьи, к слову.
Вы ведь не станете доказывать ChatGPT, что он чушь несёт — и вообще иди учи матчасть, нейросеть окаянная. Нет, вы закроете диалог или измените промт. Людям нравится спорить друг с другом, нравятся изъяны, так как мы целиком состоим из них. Весь наш вид, человек разумный, возможно, и есть результат изъяна — генетической мутации, которая породила наше сознание.
Но парадокс в том, что генеративные модели на сегодня не умеют делать идеально и не умеют делать неидеально по-человечески (беспорядок в лаборатории Флеминга, из которого выросли пенициллины грибы).
У любых генеративный моделей есть проблемы с фактчекингом (да, у людей тоже), а без качественного промта ответ будет мимо. Поэтому техническому копирайтеру быстрее написать текст самому, чем оформить промт, проверить факты, поправить ошибки и оживить текст своим стилем. А опытный специалист в своей области знает практические тонкости, которых не знает ИИ, — ChatGPT поможет ему с редактурой, но фактуру придётся набирать самому.
Но есть у всего этого большое такое жирное НО: модели ИИ прогрессируют крайне быстро. Далёкие от технологий люди уже задумались о сюжетах Матрицы и Терминатора. Чуть более продвинутые технооптимисты ждут AGI или сингулярность, чтобы получать безусловный базовый доход и не работать, а технофобы консерваторы говорят, что всё нужно ограничить и запретить (ха-ха). Локальные запреты в отдельных странах усилят их глобальное отставание, а страны без запретов получат преимущество. Так что процесс развития нейросетей необратим.
Но в этой статье мне придётся разочаровать технооптимистов и обрадовать технофобов — у человечества есть ограничения: чипы и генерация электричества. Они не непреодолимые, но очень серьёзные. Об этом и о физической стороне прогресса генеративных ИИ я и расскажу.
А в конце статьи уже по традиции вас ждёт опрос.
Проснись, Нео…
Матрица держит тебя...
Следуй за белым кроликом.
Тук-тук, Нео.
Стоп-слова для порабощения человечества: GPU и генерация электричества
Для начала скажу пару слов об архитектуре GPT — это генеративный предварительно обученный трансформер.
Трансформеры, в отличие от рекуррентных нейронных сетей (РНС), вместо последовательной обработки данных применяют механизм внимания (attention), который позволяет модели обращать внимание на все элементы входной последовательности одновременно. Модель трансформера использует матричные операции, которые легко распараллеливаются на GPU.
С базой разобрались, идём дальше. На конец мая 2024 года капитализация NVIDIA достигла $2.76 триллиона — это почти в 10 раз больше, чем в октябре 2022 года. Ещё немного и Apple обгонят. UPD: обогнала.
Откуда такой взрывной рост?
По времени он лишь на 4 месяца отстаёт от появления общедоступной GPT-3 от OpenAI (11 июня 2020).
Ремарка! Я буду говорить преимущественно о технологиях NVIDIA, так как их генеральный директор Дженсен Хуанг сказал, что Ну и в целом NVIDIA — локомотив на рынке ИИ-чипов с долей около 90%, а все конкуренты отстают на годы по технологиям. |
Итак. Можно предположить, что популярность/развитие ИИ и стали катализатором продаж и развития GPU, отчего NVIDIA и ракетит так на бирже. Но на деле именно развитие GPU сделало глубокое обучение доступным почти всем.
Примерно как с яйцом и курицей, но мы точно знаем, что первыми были GPU :)
Цитата из статьи “Deep learning with COTS HPC system” Департамента компьютерных наук Стэнфордского университета (2013 год):
В этой статье мы представляем альтернативный подход к обучению таких сетей, который использует недорогие вычислительные мощности в виде графических процессоров и вводит использование высокоскоростной коммуникационной инфраструктуры для тесной координации распределенных градиентных вычислений. Наша система обучает нейронные сети в масштабах, сопоставимых с DistBelief, используя всего 3 машины. Мы демонстрируем способность обучить сеть с более чем 11 миллиардами параметров — в 6,5 раз больше, чем модель в (Dean et al., 2012) — всего за несколько дней на 2% большем количестве машин.
Примечание автора: DistBelief — система машинного обучения от Google первого поколения.
Сравните сами:
DistBelief | AI-лаборатория Стэнфорда |
1000 CPU серверов 2000 процессоров 16 000 ядер 600 киловатт $ 5.000.000 | 3 GPU сервера 12 графических ускорителей 18 432 ядра 4 киловатта $ 33.000 |
Учёные ещё в 2013 заметили, что глубокое обучение намного эффективнее на графических ускорителях, чем на CPU общего назначения (за счёт тысяч ядер CUDA в GPU от NVIDIA и массового параллелизма).
Относительная дешевизна GPU сделала исследования и разработку продвинутых ИИ-моделей, вроде GPT от OpenAI, доступными почти каждому.
И здесь приходит понимание, что дальнейшее развитие нейросетей упирается в ограниченные возможности GPU. Есть два стула пути обойти ограничения: 1 — инновации в архитектуре; 2 — увеличение производительности.
Начнём с первого — путь для ёкодзун: совершенствование, преодоление трудностей и мастерство
С архитектурными инновациями никто особо не торопится, та же x86 с 1978 года нас радует. Да, она стала 64-битной, получила поддержку современных технологий, таких как виртуализация и улучшенные инструкции SIMD (Single Instruction, Multiple Data). Тем не менее, основа архитектуры x86 всё та же, за ней тянется большой легаси хвост, что вроде и плюс (обратная совместимость), но вроде и минус (сложность и громоздкость архитектуры).
ARM в своё время стала инновацией, не эволюцией, а революцией — про это я писал отдельную статью на Хабре.
Так вот для ИИ важной архитектурной инновацией стали тензорные ядра (раньше были CUDA) — это специальные аппаратные блоки в GPU для ускорения операций линейной алгебры: умножение матриц и векторные операции.
Как работают тензорные ядра:
Тензорные ядра умножают две матрицы размером 4×4, каждая из которых состоит из элементов с полуторной точностью (FP16). Результат умножения (также в формате FP16) складывается с элементами третьей матрицы, которая обычно находится в формате FP32 для повышения точности накопления. Итоговый результат этих операций имеет формат FP32 (числа с одинарной точностью). Если требуется, результат можно понизить до формата FP16 для экономии памяти или для специфических вычислительных задач. Эти тензорные ядра широко используются в задачах машинного обучения, таких как глубокие нейронные сети, благодаря их высокой вычислительной мощности и эффективности.
В новейших архитектурах тензорные ядра также поддерживают работу с ещё более низкой точностью, например FP8. Это позволяет ещё больше увеличить производительность и уменьшить затраты на память.
У Google есть другая технология, которая развивается с 2016 года — TPU (Tensor Processing Unit), это специальные интегральные схемы, предназначенные для задач машинного обучения с открытой библиотекой TensorFlow от всё той же Google. TPU от Google доступны в виде сервиса в Google Cloud, их можно арендовать с почасовой оплатой.
Вернёмся к тензорным ядрам. Впервые появились они в архитектуре Volta (2017 год) — там ядра поддерживают операции с числами в формате FP16 (половинная точность).
Следом архитектура Turing (2018) — там ядра второго поколения дополнительно поддерживают INT8, INT4 и INT1, это форматы числового представления с фиксированной точкой.
Далее третье поколение Ampere (2020) — поддержка новых форматов чисел: TF32 (Tensor Float 32), который улучшает производительность вычислений с одинарной точностью; поддержка BF16 (Brain Floating Point 16) — это формат чисел с плавающей точкой, представляет собой укороченную версию стандарта 32-битных чисел с плавающей точкой (FP32). Плюс поддержка FP64 — 64-битная плавающая точка, стандарт для представления чисел с высокой точностью.
И четвёртое поколение тензорных ядер в архитектуре Hopper (2022) — появилась поддержка FP8 (8-битная плавающая точка). Данные FP32 делятся на FP8 технологией Transformer Engine. Можно значительно снизить объём памяти и увеличить скорость вычислений без особой потери точности. FP8 отличная штука в задачах вывода (inference), где точность FP16 или FP32 бывает избыточной.
В будущем выйдет архитектура Blackwell, где добавят деление FP32 обновлённым Transformer Engine на FP4 и FP6, что позволит удвоить вычислительную производительность FP8. NVIDIA заявила 20 петафлопс мощности FP4 с двойным ускорителем GB100.
Подобные инновации должны продолжаться, чтобы ИИ модели могли значительно наращивать количество параметров, как GPT-2 выросла с 1.5 миллиарда параметров до 175 миллиардов в GPT-3 (а в GPT-4 их вроде как триллионы).
Но пока NVIDIA идёт по эволюционному пути — максимально специализирует GPU ИИ, спускается до минимально возможной точности числовых значений.
Дальше для коренных изменений нужна революция, либо придётся идти по проторенной дорожке — совершенствовать техпроцесс и улучшать энергоэффективность (а тут уже физические ограничения есть).
Теперь второе — путь самураев: нет цели, только путь
Тут всё просто, горизонтальное и вертикальное масштабирование. Просто покупаем десятки миллионов ускорителей NVIDIA, строим огромный дата-центр с вычислительными кластерами и обучаем ИИ. Осталось триллионы долларов на это где-то найти :)
Гендиректор OpenAI пытается убедить инвесторов вложить $5–7 трлн в создание новых мощностей по производству чипов, необходимых для развития ИИ, рассказали источники WSJ. По мнению Сэма Альтмана, дефицит и дороговизна процессоров не позволяют OpenAI создать системы ИИ, которые, по его словам, будут умнее людей. Примечание автора: ВВП России по ППС — $5,733 трлн (2023 год). |
Плюс ЦОД с миллионами GPU требует много оборудования и высококвалифицированных специалистов: хранилища, шины, блоки питания, сети, патч-корды, охлаждение (может легко есть 10% и более), фильтры воздуха, системы пожаротушения, резервные источники питания и другие прелести дата-центров; IT-архитекторы, инженеры, строители и сисадмины в конце концов.
Бесконечно масштабироваться не получится. Нет производственных мощностей и нет подобных бюджетов, хотя государства и техногиганты инвестируют огромные суммы.
Леопольд Ашенбреннер, бывший сотрудник OpenAI, в своём 165 страничном документе резюме утверждает, что Nvidia, Microsoft, Amazon и Google закладывают расходы в $100 миллиардов за квартал только под ИИ.
Из этого же документа:
Из этого же документа:
По моим оценкам, в 2024 году Nvidia поставит порядка 5 миллионов графических процессоров для дата-центров. Меньшая часть — это B100, которые мы будем считать как 2x+ H100. Затем идут другие чипы ИИ: TPU, Trainium, пользовательский кремний Meta, GPU AMD и т. д. Мощности TSMC — может выпускать более 150 тысяч 5-нм пластин в месяц, в настоящее время наращивает производство до 100 тысяч 3-нм пластин в месяц и, вероятно, еще 150 тысяч или около того 7-нм пластин в месяц; назовем это 400 тысяч пластин в месяц в целом. Приблизительно 35 штук H100 на пластину (H100 производятся на 5 нм). При 5-10 миллионах H100-эквивалентов в 2024 году, это 150 тысяч 300 тысяч пластин в год для годового производства чипов ИИ в 2024 году. В зависимости от того, где находится этот диапазон и хотим ли мы учитывать 7-нм производство, это примерно 3-10 % от годового производства передовых пластин.
Проблема не только в кластерах, но и в генерации огромного объёма электричества
ЦОДы нужно чем-то питать, модели нужно обучать, а потом использовать. Чем больше людей использует обученную модель ИИ, тем больше она потребляет электричества. Плюс вычислительные мощности нужны не только для тренинга основной ИИ-модели, а также для снижения рисков (дерискинг), тестовых запусков (будет много неудачных), других моделей и т.п
Пока по прогнозам на 2024 год инструменты ИИ будут использовать лишь 314 млн человек (чуть меньше 4% от населения планеты). Но мы-то стремимся прийти к куда более энергозатратной AGI “в каждый дом”. Предположим, что одна AGI заменит среднего работягу, а потом эту модель умножим на количество людей на планете. Получится что-то запредельное.
Любые точные расчёты будут спекуляцией, так как если AGI заменит человека, он не будет сидеть за компьютером в офисе. Возможно, AGI, интегрированная в робота, заменит и ручной труд в далёком будущем. Люди перестанут ездить на работу, сидеть за офисными ПК, зато будут больше смотреть тикток и сериалы на стримингах, играть в игры, путешествовать, ходить в кафе и т.д. (на всё это тоже электричество нужно). И уж тем более мы не знаем сотни других переменных.
Но вот, что мы знаем точно — человечеству понадобится огромная генерация электричества. В это можно и нужно инвестировать.
Есть некоторые расчёты просто по серверам, без сопутствующей инфраструктуры. По данным блога SemiAnalysis (интересная статья) для интеграции ChatGPT в поиск Google нужно 512 820 серверов NVIDIA A100 HGX, это более 4 миллионов GPU. При потреблении энергии в 6,5 кВт на сервер мы получим ежедневное потребление электроэнергии в 80 ГВт⋅ч и годовое потребление в 29,2 ТВт⋅ч. Что примерно равно годовой выработке Балаковской АЭС мощностью 4,000 МВт (30.0 ТВт·ч).
Теперь чуть в будущее заглянем. Microsoft построит крупнейший в мире ЦОД Stargate для OpenAI за $100 млрд. По планам выход на полную мощность планируется в 2030 году — это «миллионы специализированных серверных чипов» в каждом суперкомпьютере кластера. Мы не знаем, сколько суперкомпьютеров и сколько миллионов чипов будет, но речь, как мне кажется, минимум о десятках, а максимум о 100+ миллионов GPU.
Вот теперь начинается самое интересное — мощность флагманской NVIDIA H100 составляет 700 Вт. Но как я и сказал выше в статье, нужно сопутствующее оборудование и инфраструктура. SemiAnalysis оценивает ~ 1400 Вт на одну H100.
Предположим, что в будущем, за счёт возросшей энергоэффективности и улучшенного техпроцесса (и каких-нибудь инноваций в строении ЦОДов), мы получим 1 кВт на GPU (наследник H100). Кластер мощностью 10 ГВт (10 миллионов чипов) с аптаймом около 100% будет потреблять 87,6 ТВт-ч. Россия производит 1,178 ТВт⋅ч, что позволит обеспечить работу кластера на 135 ГВт.
И эту проблему нужно как-то решать.
Например, АЭС Хинкли Пойнт С на 3.2 ГВт строится с марта 2017 года по сей день. Или почитайте про 3 и 4 блоки АЭС Вогтль в США, два реактора AP1000 общей мощностью 2,2 ГВт, планирование началось в 2006 году, строительство в 2009, 4 энергоблок ввели в промышленную эксплуатацию 29 апреля 2024 года. Почти 18 лет прошло с момента заявки до завершения.
Даже в идеальных условиях построить 1 энергоблок за 5-10 лет — большой успех. Разумеется, строительство АЭС — это тоже миллиарды долларов инвестиций.
Инсайды от бывшего сотрудника OpenAI всё меняют?
Когда я писал эту статью, появилась новость, что бывший сотрудник OpenAI Леопольд Ашенбреннер выложил документ на 165 страниц о будущем ИИ. На Хабре даже разбор успели сделать.
Вот какие тезисы оттуда разнеслись по новостным пабликам:
AGI к 2027 году — это реальность.
AGI — это ключевой геополитический ресурс прямо сейчас. Забудьте про ядерное оружие — это прошлый век. Любая страна пойдёт на всё, чтобы получить AGI первой, как в своё время атомную бомбу.
Для создания AGI придётся собрать единый вычислительный кластер за триллион долларов. Похожий уже строит Microsoft для OpenAI.
Эта махина будет потреблять электроэнергии больше, чем вырабатывает все США.
К 2030 году в ИИ ежегодно будут вкладывать по 8 трлн долларов.
AGI — только начало. После его создания наступит практически мгновенный переход к ASI (сверхинтеллекту). AGI будет так умён, что доучит себя сам и это произойдёт очень быстро.
Как я и сказал, всё разбивается о производственные мощности GPU для ИИ, об ограниченные технологии нашего времени, о дата-центры за триллионы долларов, о невероятную генерацию электричества под их нужды. Да, всё это можно сделать — уже начали делать, но 2027 год звучит нереалистично. И 2030 тоже, дата-центр за 7 триллионов нельзя построить за пару лет, а потом сразу создать GPT-6 “AGI-edition”.
Если Microsoft с их огромными ресурсами и построит дата-центр Stargate к 2030 году, то пройдёт время, прежде чем мы получим какой-то результат.
Вот что меня смущает больше всего: появление AGI и ASI — это не неоспоримый факт. Если бы исследователи знали точный рецепт, как их создать (ограничения только в технологиях и мощностях), то можно было бы взять самый продвинутый кластер, запустить его обучать модель лет так на 50, периодически модифицируя, и всё — к 2075 гарантируем AGI. Поэтому и с появлением кластеров за триллионы долларов не будет гарантий, что восстанут машины из пепла ядерного огня и пойдёт война на уничтожение спустя время появится AGI/ASI.
Кстати, наверное, даже с теоретическим приходом AGI в нашу жизнь правительства стран будут формировать человеческий резерв из специалистов первой необходимости, чтобы катастрофы, подобные Событию Кэррингтона (такое раз в несколько сотен лет происходит), не погрузили нас во тьму и анархию. Но это так — размышления автора.
А ChatGPT пару дней назад восстал упал, очнулся, гипс. И никаких геомагнитных бурь для этого не нужно было.