Привет, Хабр! Если вас всегда интересовало, как устроены по-настоящему производительные системы, вы попали по адресу. В сегодняшней статье мы расскажем, как Nvidia объединила сразу 72 ускорителя B200 в единый CUDA процессор GB200 NVL72. Узнаем, как для создания эффективного интерконнекта используются технологии NVLink, Ethernet и Infiniband. Предметный разговор об аппаратной части уже ждет вас под кнопкой «Читать далее».
Мы потратили 320 тысяч рублей ради Nvlink для нейросетей. Но был ли в этом смысл?
Привет Хабр, с вами снова ServerFlow. И да, мы потратили 320 тысяч рублей, чтобы проверить, есть ли какой-то толк от NVLink для развертывания нейросетей? Тесты мы провели на двух видеокартах Nvidia A5000, сначала объединённые NVLink, а после без него. Для наглядности теста нами была выбрана последняя языковая модель LLaMA 3.2 на 90 миллиардов параметров. Что у нас в итоге вышло – сможете узнать ниже в посте.
Ода любви к nvtop — консольный мониторинг GPU, который мы заслужили
Привет, Хабр! Сегодня я хочу рассказать про одно маленькое сокровище мира Linux, которое решительно изменило то, как мы смотрим на мониторинг видеокарт. И нет, это не очередная утилита с кучей зависимостей и странным GUI, который выглядит так, будто его рисовали в 1998 году. Это nvtop — инструмент, который воплощает собой ту самую Unix-философию: "делай что-то одно, но делай это хорошо".
Тестируем Pixtral12B и LLaMA 3.2 11B на народных Tesla P100 и P40
Привет Хабр! С вами снова ServerFlow, и мы начинаем наш новый цикл статей о проектах связанных с GPU. В начале цикла мы хотим заняться непривычной для нас темой — нейросетями, а именно большими языковыми моделями LLM. В сентябре‑октябре, судя по новостям вышел особенно богатый урожай мультимодальных нейросетей в открытом доступе, в этом посте будем смотреть на Pixtral 12B и LLaMA 32 11B, а запускать их будем на двух народных и легко доступных на БУ‑рынке карточках для работы с нейросетями — Nvidia Tesla P100 и P40.
Удалённый доступ к графике в Linux: от X11 до Docker с GPU
Привет Хабр! С вами снова ServerFlow, и сегодня мы хотим поговорить об удалённом доступе к графическим приложениям на Linux-серверах. Тема эта стала особенно актуальной в последнее время – всё больше задач требует работы с GPU на удалённых машинах. Будь то рендеринг в Blender на мощном сервере, работа с нейросетями или даже облачный гейминг.
Обо всё этом в новой статье ниже.
Истории
Что выгодней — свое железо или облако?
Привет, Хабр! Малый бизнес и крупные компании давно задаются вопросом: что выгоднее - облачные ресурсы или собственное оборудование? Облако кажется идеальным решением, но при более глубоком анализе не всё так однозначно, особенно в долгосрочной перспективе. Мы в ServerFlow провели сравнение наиболее популярных конфигураций в облаке и on-premise, отметили плюсы и минусы каждого из вариантов работы с оборудованием. Подробности - в статье!
192 ядра на процессор — релиз серверных AMD EPYC Turin
Лиза Су уже десять лет стоит у руля AMD, и за это время она не только вывела компанию из кризиса, но и сделала ее настоящим лидером рынка. Под её руководством AMD из аутсайдера превратилась в серьёзного игрока на рынке серверных процессоров, вынудив Intel бороться за выживание. Теперь, 10 октября, AMD представила новые серверные процессоры серии Epyc 9005 "Turin". В линейке представлены модели с 192 ядрами Zen5C, ориентированные на распределенные вычисления, и 128-ядерные процессоры с полноценными ядрами Zen5 и полугигабайтом L3 кэша. Подробности обо всех новинках и уникальных особенностях новых процессоров читайте в нашем посте!
FP32, FP16, BF16 и FP8 — разбираемся в основных типах чисел с плавающей запятой
Привет, Хабр! Сегодня давайте поговорим о том, как современные вычисления на GPU стали более гибкими и эффективными благодаря различным форматам чисел с плавающей запятой (FP64, FP32, FP16, BFLOAT16 и FP8). Эти форматы не просто числа — за каждым из них стоит конкретная область применения. В разных ситуациях мы сталкиваемся с задачами, где важны либо скорость, либо точность, и правильно выбранный тип floating point помогает оптимизировать ресурсы. Давайте разберём всё это на примерах и поймём, в каких задачах каждый из этих форматов будет наиболее полезен.
Малые числа, большие возможности: как плавающая запятая ускоряет ИИ и технологии
Привет, Хабр! С вами снова ServerFlow, и сегодня мы решили погрузиться в увлекательный мир чисел с плавающей запятой. Вы когда-нибудь задумывались, почему существуют INT8, FP16, FP32, а также FP64? Как они влияют на производительность наших процессоров и видеокарт? Как малые числа с плавающей запятой помогают развивать нейросети и искусственный интеллект? Давайте вместе разберемся в этих вопросах, раскроем тайны стандарта IEEE 754 и узнаем, какое значение имеют большие и маленькие числа с плавающей запятой в современных вычислениях.
AmpereOne — самый доступный серверный ARM. Лучше чем AMD и Intel?
Привет, Хабр! ARM окружает нас повсюду, от Айфона в кармане с Apple Bionic до Nintendo Switch с NVIDIA Tegra в гостиной. А вот на рынке серверов и тем более десктопа это зверь достаточно редкий. Но есть компания, которая серьёзно намерена сломить статус-кво, делая ARM процессоры доступными как для корпоративных клиентов, так и для простых смертных, желающих собрать себе ПК на ARM. И имя этой компании — Ampere Computing.
Intel Xeon D — что это такое и для чего нужно?
Привет, Хабр! С вами снова ServerFlow. Сегодня мы обсудим необычное железо – серверные SoC процессоры для встраиваемых систем. Intel Xeon D можно смело назвать уникальными процессорами, так как на одной подложке с ядрами процессора размещен высокопроизводительный сетевой адаптер. Помимо этого, Xeon D обладает множеством архитектурных улучшений, о которых мы расскажем в этой статье!
Intel Gaudi — гонка ИИ-ускорителей
Привет Хабр! С вами снова ServerFlow и мы хотим поговорить о насущном – о ИИ с нейросетями, а точнее о железе на котором нейросети обучают и на котором впоследствии они работают. В последние годы эта индустрия напоминает арену бойцовского клуба, где технологические гиганты с ожесточенной конкуренцией стремятся предложить наиболее производительные и эффективные решения для машинного обучения. И хотя не особо похоже, чтобы у кого-то на этой арене получилось сместить лидера рынка в лице NVIDIA, однако, попытки продолжают предприниматься.
Так продолжает и Intel, представив свету свою серию ИИ-ускорителей под брендом Gaudi, а не так давно и обновленную модель Gaudi 3. Ранее Intel предпринимала попытки в собственные разработки ИИ ускорителей, но в этот раз за работу взялась компания Habana Labs, приобретённая Intel в 2019 году за внушительную сумму в 2 миллиарда долларов.
NVIDIA и ARM — От первых шагов до попыток поглощения
Привет Хабр! Мы в ServerFlow не просто поставляем серверное оборудование – мы железо всех видов и сортов горячо любим и им интересуемся, особенно историей его развития. Сегодня мы хотим поделиться с вами историей развития ARM-направления в NVIDIA — от первых попыток в мобильном сегменте до недавних стратегических ходов, включая неудавшуюся попытку приобрести ARM Holdings.
Подробнее обо всём этом ниже в статье.
Восход ARM: От Первых шагов до Войны за Рынок
Привет, Хабр! Мы в ServerFlow занимаемся поставками серверного оборудования. В основном, мы работаем с x86-железом, долгие годы было стандартом де-факто в индустрии. Однако в последние годы мы наблюдаем интересную тенденцию: архитектура ARM, которая когда-то использовалась лишь в маломощных устройствах, всё активнее заявляет о себе и в серверных решениях. ARM, начав с простых и энергоэффективных процессоров, теперь стремительно движется к доминированию, доказывая свою пригодность даже для гигантских ЦОДов и суперкомпьютеров. Давайте вместе погрузимся в историю этих двух архитектур и посмотрим, как ARM смогла пройти путь от решений для маломощных устройств до облаков и суперкомпьютеров.