Привет Хабр! С вами снова ServerFlow и мы хотим поговорить о насущном – о ИИ с нейросетями, а точнее о железе на котором нейросети обучают и на котором впоследствии они работают. В последние годы эта индустрия напоминает арену бойцовского клуба, где технологические гиганты с ожесточенной конкуренцией стремятся предложить наиболее производительные и эффективные решения для машинного обучения. И хотя не особо похоже, чтобы у кого-то на этой арене получилось сместить лидера рынка в лице NVIDIA, однако, попытки продолжают предприниматься.
Так продолжает и Intel, представив свету свою серию ИИ-ускорителей под брендом Gaudi, а не так давно и обновленную модель Gaudi 3. Ранее Intel предпринимала попытки в собственные разработки ИИ ускорителей, но в этот раз за работу взялась компания Habana Labs, приобретённая Intel в 2019 году за внушительную сумму в 2 миллиарда долларов.
Путь к Gaudi
Корни архитектуры Gaudi уходят глубоко в разработки израильского стартапа Habana Labs, который был основан в 2016 году группой опытных инженеров и предпринимателей.
Первым значительным достижением Habana Labs стал выпуск Goya - процессора, оптимизированного для инференса нейронных сетей. Goya продемонстрировал впечатляющие результаты в задачах машинного обучения. Высокая производительность в купе с конкурентной энергоэффективностью привлекли внимание технологических гигантов, в том числе и Intel.
Видя потенциал дальнейших разработок Habana Labs и их возможное влияние на рынок ИИ-ускорителей, Intel приняла стратегическое решение о полном приобретении компании за внушительную сумму в 2 миллиарда долларов. Это решение было обусловлено не только успехом Goya, но и перспективами разрабатываемого процессора Gaudi для обучения нейронных сетей.
Стоит отметить, что Intel ранее предпринимала попытки разработки собственных решений для работы с ИИ, такие как Intel Loihi, Nervana или потребительский Neural Compute Stick. Однако этим проектам не удалось достичь массового успеха из-за недостаточной конкурентоспособности. Именно это побудило Intel к приобретению Habana Labs, чьи разработки уже доказали свою эффективность, для быстрого усиления своих позиций на рынке ИИ-ускорителей.
Такое решение, хотя и было дорогостоящим, оказалось стратегически оправданным для Intel. Приобретение Habana Labs не только предоставило компании доступ к передовым технологиям в области ИИ, но и позволило быстро укрепить свои позиции на этом перспективном рынке, компенсируя отставание от конкурентов в сфере ИИ-ускорителей.
Прорывной Gaudi 3
На сегодняшний день линейка Gaudi активно развивается и уже насчитывает три поколения, демонстрируя непрерывное совершенствование технологий Intel в области ИИ-ускорителей. Последнее достижение в этой эволюции - Gaudi 3, устройство для аппаратного ускорения задач в области машинного обучения.
Gaudi 3 относится к классу NPU (Neural Processing Unit) и представляет собой специализированный процессор, оптимизированный для работы с нейронными сетями. В отличие от универсальных GPU, NPU созданы для эффективной обработки тензоров - многомерных массивов данных, которые являются основой вычислений в глубоком обучении.
Для наилучшего понимания разницы между NPU и GPU можно привести следующее сравнение: если представить, что один блок GPU может обработать за раз один вектор данных, то аналогичный блок NPU способен одновременно оперировать целым тензором, что значительно ускоряет вычисления в задачах ИИ. Именно обилие тензорных ядер делает NPU беспрецедентно эффективными в задачах обучения ИИ.
Эта архитектурная особенность позволяет Gaudi 3 достигать впечатляющей производительности в задачах машинного обучения и искусственного интеллекта, обеспечивая значительное преимущество над традиционными вычислительными архитектурами в специфических ИИ-ориентированных сценариях использования.
Gaudi 3 воплощает эту концепцию, предлагая микросхему на базе 5-нм техпроцесса с 64 тензорными ядрами и 128 ГБ высокоскоростной памяти HBM2e. Его архитектура оптимизирована для работы с крупными языковыми моделями и включает в себя специализированные движки для матричных вычислений. Отдельно стоит отметить, что интеграция сетевого адаптера прямо в кристалл NPU (Neural Processing Unit) является ключевой особенностью архитектуры Gaudi 3. Это позволяет значительно повысить эффективность масштабирования системы, особенно при работе с LLM – крупными языковыми моделями и прочими задачами связанными с машинным обучением. Наличие 24 линков по 200 Гбит/с позволяет обеспечить высокую пропускную способность для передачи данных, что критически важно при распределенных вычислениях и обработке больших объемов данных.
Сравнение с конкурентами
В тестах от Intel, Gaudi 3 демонстрирует впечатляющее результаты в сравнению с своими прямыми конкурентами от NVIDIA. Тесты проводились в задачах обучения LLM(больших языковых моделей) LLAMA2 и GPT3, на 7, 13 и 175 миллиардов параметров, где Gaudi демонстрирует до 1.7 раз* большую производительность по сравнению с NVIDIA H100. Этот значительный прирост производительности особенно важен в контексте обучения крупномасштабных языковых моделей и других сложных нейронных сетей, где время обучения является критическим фактором.
Не менее важным аспектом является энергоэффективность Gaudi 3, особенно в задачах инференса, где он демонстрирует до 40% лучшую эффективность по сравнению с конкурентами. Это преимущество имеет огромное значение для крупных дата-центров и облачных провайдеров, где оптимизация энергопотребления напрямую влияет на операционные расходы и экологичность инфраструктуры.
Такие впечатляющие результаты достигаются благодаря синергии нескольких ключевых факторов:
Высокая вычислительная мощность, обеспеченная увеличенным количеством тензорных процессоров и специализированных матричных движков.
Улучшенная архитектура памяти с большим объемом и повышенной пропускной способностью относительно Tesla H100, что критически важно для работы с большими моделями и датасетами.
Эффективная сетевая инфраструктура, позволяющая создавать масштабируемые системы с высокой пропускной способностью между узлами за счет уже интегрированного сетевого адаптера.
Сочетание этих факторов позволяет Gaudi 3 стать мощным и универсальным инструментом для решения широкого спектра сложных задач в области искусственного интеллекта, от обучения крупномасштабных языковых моделей до высокопроизводительного инференса в реальном времени.
Противостояние NVIDIA: Есть ли шансы?
Intel Gaudi 3 демонстрирует впечатляющие результаты на фоне конкурентов, бросая вызов даже самым мощным решениям на рынке. Конфигурация с восемью ускорителями Gaudi 3 достигает феноменальной производительности в 14.6 петафлопс при вычислениях с FP8. Это существенно превосходит показатель в 8 петафлопс у аналогичной конфигурации на NVIDIA H100, что свидетельствует о значительном технологическом прорыве Intel.
Более того, экономическая эффективность Gaudi 3 выводит его на новый уровень конкурентоспособности: стоимость одного петафлопса производительности составляет около $18,7, тогда как у H100 этот показатель достигает $46,8. Это почти 2.5-кратное преимущество в соотношении цена/производительность, что делает Gaudi 3 не просто серьезным конкурентом, а потенциальным лидером рынка. Но здесь есть нюанс.
Нюанс в том, что в случае с H100 все эти терафлопсы мощности, точно будут по максимуму совместимы с широким рядом самых разных библиотек, фреймворков и готовых ИИ-моделей, поскольку NVIDIA превосходит конкурентов не столько в аппаратных разработках, как в продвинутой экосистеме своего программного обеспечения построенным вокруг четырёх заветных букв – CUDA.
А будет ли такая же ситуация с продуктом от Intel, насколько правдивы их тесты и не вскроются ли ещё какие подводные камни в процессе отладки ускорителей – загадка.
Однако, важно отметить, что преимущества Gaudi 3 наиболее ярко проявляются в специфических сценариях использования. В частности, его превосходство особенно заметно в задачах, требующих обработки больших объемов данных в памяти. Gaudi 3 оснащен внушительным объемом памяти HBM2e в 128 ГБ, что значительно превосходит возможности 80 ГБ HBM3 у H100. Это дает Gaudi 3 существенное преимущество в работе с крупномасштабными моделями машинного обучения и в задачах обработки естественного языка, где объем обрабатываемых данных критически важен для достижения высокой точности результатов.
Зачем Gaudi 3, когда есть Intel GPU Max?
Создание Gaudi 3 наряду с существующей линейкой GPU Max может показаться избыточным, однако это решение отражает глубокое понимание Intel диверсифицированных потребностей рынка ИИ-вычислений. Разработка Gaudi 3 - это не дублирование усилий, а стратегический шаг, направленный на охват различных сегментов рынка высокопроизводительных вычислений.
Линейка GPU Max, основанная на архитектуре Xe, ориентирована на широкий спектр задач, включая как традиционные графические вычисления, так и общие параллельные вычисления для AI. Эта универсальность делает GPU Max идеальным выбором для организаций, нуждающихся в гибких решениях, способных адаптироваться к различным типам рабочих нагрузок.
В противовес этому, Gaudi 3 представляет собой специализированное решение, оптимизированное исключительно для задач глубокого обучения и инференса в области ИИ. Его архитектура, основанная на тензорных вычислениях, позволяет достичь беспрецедентной эффективности в специфических AI-задачах, особенно в тех, которые требуют обработки больших объемов данных и сложных матричных операций.
Таким образом, создавая Gaudi 3, Intel преследует цель предоставить оптимальное решение для организаций, фокусирующихся исключительно на развитии и применении технологий искусственного интеллекта. Это позволяет компании удовлетворить потребности как тех клиентов, которым необходима максимальная гибкость (с помощью GPU Max), так и тех, кто ищет непревзойденную производительность в узкоспециализированных AI-задачах (с помощью Gaudi 3).
Успех Gaudi в Amazon Web Services
AWS на текущий момент является одним из ключевых и наиболее крупных клиентов использующих Gaudi для работы с машинным обучением. На текущий момент в целом складывается ощущение, что Amazon возможно и инициировала дальнейшие работы над Gaudi, возможно и вовсе используя Intel в качестве аутсорс разработчика, впрочем это лишь предположения.
В практическом плане это вылилось в создание инстансов Amazon EC2 DL1, заточенных под задачи машинного обучения. AWS провела серьезное тестирование этих инстансов, построив кластер из 16 машин, каждая с восемью ускорителями Gaudi. На этом "железе" они обкатывали обучение больших языковых моделей, в частности BERT с 1.5 миллиардами параметров.
Результаты оказались весьма неплохими. На 128 ускорителях удалось достичь эффективности масштабирования 82.7% при обучении BERT - это очень достойный показатель. Используя "родную" для Gaudi поддержку BF16, инженерам AWS удалось снизить аппетиты к памяти и ускорить процесс обучения. В итоге, с помощью софта от Habana и библиотеки DeepSpeed, они смогли предобучить огромную модель BERT за 16 часов на сети из 128 ускорителей.
Заключение
Стоит отметить, что у Intel получилось достичь по настоящему впечатляющих и прорывных результатов на уровне дизайна архитектуры Gaudi 3. Но, хорошая аппаратная составляющая это лишь часть успеха, настоящее испытание – это стабильное, надёжное и совместимое с популярными фреймворками ПО. Nvidia годами прикладывала усилия к развитию CUDA, на уровне API, документации, драйверов, кооперируясь с разработчиками фреймворков для машинного обучения. Возьмите любую из 10 наиболее популярных библиотек для нейросетей – и скорее всего аппаратное ускорение там будет заточено в первую очередь под технологии Nvidia. Но не Intel.
Да и в целом, за пределами машинного обучения, Intel никогда не славилась стабильным, надёжным и хорошо совместимым с сторонними решениями ПО. С одной стороны этот порочный цикл пытаются прервать их дискретные видеокарты для ПК-сектора, с провального старта получавшие регулярные обновления драйверов, что в итоге сделали их финансово привлекательным вариантом для бюджетного сегмента. А с другой стороны мы имеем AI-модули в последних поколениях процессоров Intel, которые в лучшем случае не работают вовсе из-за отсутствия поддержки или ошибок в драйверах, либо в худшем вызывают глобальные проблемы во всей системе.
Однако, если Intel сфокусирует свои ресурсы не только на дизайне новых моделей Gaudi, но также и на программной экосистеме удовлетворяющей потребности их клиентов, то можно смело предположить, что эту линейку ускорителей ИИ, скорее всего не ждёт забвение как их предшественников.
А вы что думаете на этот счёт? Будет интересно прочесть ваше мнение в комментариях, и спасибо что дочитали до конца!