Обновить
128K+

Видеокарты

Графические адаптеры

49,79
Рейтинг
Сначала показывать
Порог рейтинга
Уровень сложности

Как мы валидировали сервер YADRO для NVIDIA H100 Special

Время на прочтение7 мин
Охват и читатели9.4K

Недавно на рынке появились PCIe-карты NVIDIA H100: они позиционируются как решения на базе SXM-чипов, извлеченных из HGX-модулей. Но точно ли их производительность не уступает производительности оригинальных NVIDIA H100 NVL? 

Меня зовут Артём Маклаев, вместе с командой я занимаюсь оценкой производительности серверных платформ для задач искусственного интеллекта в YADRO. В целях эксперимента мы решили сравнить показатели PCIe-карты NVIDIA H100 (дальше по тексту буду называть их NVIDIA H100 Special) и NVIDIA H100 NVL. Для этого провели испытания с использованием сервера YADRO G4208P G3. Методику построили так, чтобы результат можно было проверить и воспроизвести: для сравнения использовали одинаковую серверную платформу, одинаковые версии драйвера, CUDA и ОС, а также два уровня тестов — прикладной vLLM benchmark и NCCL all_reduce_perf для проверки GPU-интерконнекта. 

В статье покажу результаты бенчмарков на типовых LLM-конфигурациях и дам рекомендации, как валидировать ускорители перед включением в проектный или продуктовый контур. Будет полезно, если приобретаете карты для работы над задачами ИИ.

Читать далее

Новости

Tensordyne Napier — еще одно решение на замену традиционных GPU в инференсе

Уровень сложностиПростой
Время на прочтение6 мин
Охват и читатели12K

Почти каждый месяц очередной стартап, производящий серверное железо, объявляет о своих ноу-хау. Естественно, ориентированных на задачи инференса и обучения ML-моделей. И пусть до реального использования в дата-центрах доходит лишь малая их часть, мы стараемся следить за всеми апдейтами, чтобы не пропустить ту новинку, которая, возможно, изменит рынок. С вами Сергей Ковалёв, менеджер продукта Selectel, а под катом вас ждут подробности об очередной чудо-железке.

Читать далее

Как ИИ помогает Linux возвращать к жизни двадцатилетние видеокарты

Уровень сложностиПростой
Время на прочтение6 мин
Охват и читатели17K

В последние годы купить новую видеокарту стало заметно сложнее и дороже. Одной из причин стал бурный рост систем искусственного интеллекта, для которых требуются огромные объемы вычислительных ресурсов. Крупные компании активно скупают графические ускорители для своих дата-центров, что влияет и на обычный рынок. В результате многие владельцы компьютеров не спешат с обновлением и продолжают использовать уже имеющееся железо или ищут недорогие варианты на вторичном рынке.

В мире open-source эта ситуация привела к довольно неожиданному результату. Разработчики Linux продолжают поддерживать видеокарты, которым уже почти два десятилетия, адаптируя драйверы под современные версии системы. Любопытно, что помогает им в этом технология, которую многие считают одной из причин нынешнего дефицита ускорителей, — генеративный искусственный интеллект. Недавняя история с доработкой драйвера для видеокарт AMD, выпущенных еще в 2007–2010 годах, наглядно показывает, как подобные инструменты используются в реальной разработке. Мы уже писали новость об этом, а теперь давайте разберемся подробнее.

Читать далее

Нейросетевой эквалайзер на PlutoSDR: от синтетики к железу

Уровень сложностиСредний
Время на прочтение4 мин
Охват и читатели7K

Любой реальный радиоканал «размазывает» символы во времени: соседние отсчёты накладываются друг на друга, и приёмник видит межсимвольную интерференцию (ISI). Классический способ с этим бороться — адаптивный фильтр LMS. Он прост, дёшев и хорошо работает, пока канал близок к линейному. Но это именно линейный фильтр: когда лучей несколько и у них разные фазы, одной линейной комбинацией отсчётов идеально восстановить символ уже не получается.

Отсюда идея, которую я и проверял: заменить (или дополнить) LMS компактной свёрточной сетью. Сеть смотрит не на один отсчёт, а на целое окно принятого сигнала и учится по нему обратному отображению канала — то есть восстанавливать исходную точку созвездия с учётом совместной статистики соседних символов. Сначала всё это обучается и сравнивается на синтетике, а потом проверяется на настоящем железе — модуле ADALM‑PLUTO.

Читать далее

Рабочий стол в LXC-контейнере: детективная история о протоколах, тупиках и самописном Wayland-композиторе

Время на прочтение24 мин
Охват и читатели12K

Домашний облачный рабочий стол и гейминг в контейнере, с общим GPU. Готового решения не было — пришлось пройти четыре тупика и написать свой Wayland-композитор.

Читать исследование

Как я установил в свой игровой ПК серверный GPU за £200

Уровень сложностиСредний
Время на прочтение10 мин
Охват и читатели21K

У меня уже была установлена RTX 4080 с 16 ГБ VRAM. Её вполне достаточно для гейминга, но не для моделей, которые я хотел запускать локально. Так что следующим шагом было либо приобретение дорогущей карточки с большим объёмом памяти, либо поиск другого способа.

И я этот способ нашёл.

Я купил видеокарту для датацентра, у которой даже нет нормального коннектора PCIe, и подключил её к ПК через адаптер. Теперь у меня в системе 32 ГБ VRAM от двух GPU, на которых работает модель с 27 миллиардами параметров, выдавая по 32 токена в секунду. И обошлось мне это всего в £200.

Читать далее

Настоящий медный custom

Время на прочтение18 мин
Охват и читатели16K

Что делать, если акрил кажется слишком хрупким, шланги мутнеют, а твоя RTX 4080 воет под нагрузкой?

Правильно! Взять полтора метра 15миллиметровой водопроводной меди, газовую горелку, собрать плоскошлифовальный станок из дрели и построить бесшумный реактор вопреки всем проблемам, которые препятствуют этому....

Читать далее

Масштабирование LLM: от одного чипа до ЦОДа. Глава 3. Сколько ресурсов нужно для LLM?

Уровень сложностиСредний
Время на прочтение8 мин
Охват и читатели6.7K

Это продолжение цикла статей о масштабировании тренировки и инференса LLM.

Предыдущая статья

А теперь перейдем к чему-то более практическому, а именно к тому, сколько нужно FLOPs и байт для работы трансформера. Подразумевается, что у вас уже есть представление о том, что такое архитектура трансформера, как работает механизм внимания и т.д.

Давайте начнем с векторов x, y и матриц A, B, имеющих вот такие размеры, допустим один элемент занимает при этом один байт.

Читать далее

DRAйверы для GPU: как Kubernetes научился выделять устройства через стандартный API

Уровень сложностиСложный
Время на прочтение20 мин
Охват и читатели8.2K

Device Plugin в Kubernetes сводит GPU к счётчику на узле: планировщик видит только количество устройств, но не их профиль, объём памяти или режим шаринга. Для ML-задач это быстро становится ограничением. Обучению нужны выделенные карточки целиком, инференсу — управляемые доли, а CI хватит и четвертинки NVIDIA H100 на пять минут. 

Dynamic Resource Allocation полностью меняет модель управления устройствами. GPU становятся сущностью с инвентарём, атрибутами и правилами выбора. В статье я разбираю устройство DRA и показываю миграцию с device plugin на примере кластера из 8 узлов × 8 NVIDIA H100 без полного переписывания манифестов. А ещё объясняю, почему мы в Deckhouse пишем свой DRA-драйвер.

Разобраться с DRA

20 лет видеокарт в цифрах: как росли FLOPS и TDP и кто вёл в дуэли NVIDIA vs AMD (+ открытый датасет на 13 500 GPU)

Уровень сложностиСредний
Время на прочтение5 мин
Охват и читатели11K

Мы свели в одну базу характеристики 13 566 видеокарт — от GeForce 256 (1999) до Blackwell и MI355X (2025) — и посмотрели, как за 20 лет менялась индустрия, а не отдельные карты. FP32 флагманов вырос примерно в 400 раз, теплопакет дополз со 155 до 1400 Вт, зато производительность на ватт — в ~100 раз. По годам разобрали, кто на самом деле вёл в дуэли NVIDIA против AMD (спойлер: «сырой FP32» — метрика обманчивая, и AMD лидировала чаще, чем принято думать), и почему настоящая битва давно ушла в tensor-вычисления. А весь очищенный датасет (CSV + SQLite, 13.5k GPU + бенчмарки) выложили открыто под CC BY 4.0 — забирайте и копайте с нами.

Читать далее

Обзор серверного ускорителя NVIDIA Tesla V100 16 Gb в корпусе от RTX 4090: Часть 3 — Запуск локальных моделей ИИ

Уровень сложностиСредний
Время на прочтение12 мин
Охват и читатели12K

Обзор серверного ускорителя NVIDIA Tesla V100 16 Gb в корпусе от RTX 4090: Часть 3 - Запуск локальных моделей ИИ

Читать далее

Масштабирование LLM: от одного чипа до ЦОДа. Глава 2. Шардинг

Уровень сложностиСредний
Время на прочтение8 мин
Охват и читатели7.5K

Это продолжение цикла статей о масштабировании тренировки и инференса LLM. Предыдущая глава находится по этой ссылке.

Итак, с основами разобрались, давайте теперь разбираться с тем, как распихать матрицы по нескольким чипам, перемножить, а затем собрать это все в удобоваримый результат. По-умному это называется шардинг.

Для начала давайте определимся, зачем этот шардинг вообще нужен. А нужен он потому что, как я уже писал в предыдущей статье, при работе с действительно большими нейронками матрицы и вектора практически никогда целиком не влезают в память одного GPU/TPU, поэтому их приходится разделять или шардировать. От того, насколько грамотно произведен шардинг, зависит то, насколько эффективно используется наш массив ускорителей, а следовательно и скорость тренировки, эффективность расхода вычислительных ресурсов и т.д.

Возьмем для примера матрицу A размера [I, J] и распределим ее на 4 ускорителя:

Читать далее

Китайцы ответили на H200 — обзор Zhenwu M890 от Alibaba

Время на прочтение5 мин
Охват и читатели14K

20 мая на ежегодном Alibaba Cloud Summit T-Head полупроводниковое подразделение Alibaba представила новое поколение GPU — Zhenwu M890. Это ускоритель с 144 ГБ памяти HBM на борту и возможностью интерконнекта между устройствами до 800 ГБ/с. На основе этого устройства также была представлен суперсервер Panjiu AL128 — стойка из 128 ускорителей M890, объединенных собственным коммутатором ICN Switch 1.0.

Предложение уже доступно китайским корпоративным клиентам и поддерживает Qwen, DeepSeek и Kimi. Но что там с характеристиками? Разбираемся под катом.

Читать далее

Ближайшие события

LLM-инференс на фотонах? Препарируем передовые технологии, представленные в апреле

Время на прочтение9 мин
Охват и читатели14K

Majestic Labs Prometheus, Kingston DC3000ME на 30,72 ТБ, TPU восьмого поколения от Google и не только... Как всегда, вендоры не дремлют и участвует в AI-гонке. И должен признать, иногда это приводит к появлению крайне неординарных решений на рынке.

Привет, Хабр! Меня зовут Сергей Ковалёв, я менеджер выделенных серверов в Selectel. В новом дайджесте собрал самые актуальные и передовые новинки в мире железа. Читайте, делитесь своим мнением — в общем, добро пожаловать под кат!

Читать далее

Как развернуть Mistral 7B на GPU-сервере через vLLM

Время на прочтение6 мин
Охват и читатели11K

Если бюджет и ресурсы ограничены, а развернуть self-hosted LLM нужно, присмотритесь к такой связке: Mistral-7B-Instruct-v0.3 + виртуальная машина с RTX A5000 24GB в облаке + vLLM. Да, это далеко не энтерпрайз-уровень, но для некоторых базовых сценариев результат работы будет очень даже хорошим.

Собственно, в этой статье мы развернем сервер с GPU, подготовим Python-окружение, установим vLLM, запустим модель, отправим тестовый запрос через API и посмотрим на базовые метрики, которые помогут оценить выбранную конфигурацию.

Читать далее

GDDRHammer и GeForge— анатомия атак, превративших видеопамять в оружие

Уровень сложностиСредний
Время на прочтение7 мин
Охват и читатели9.7K

Существует множество программных угроз для систем ИИ. Но я расскажу о GDDRHammer — атаке на аппаратную часть. Разберу эту атаку до винтика, то есть покажу, как она реализуется на физическом уровне, и сравню с атакой GeForge того же класса.

Читать далее

Самый настоящий FP64 для ядерных расчетов? Анонс AMD Instinct MI430X

Время на прочтение5 мин
Охват и читатели16K

На майском HPC User Forum в Остине AMD рассказали о MI430X — ускорителе серии MI400, который позиционируется как инструмент для научных вычислений. Пока индустрия увлечена инференсом и считает токены в секунду на FP4, AMD напомнила, что CFD-код (Computational Fluid Dynamics) не интересует, насколько быстро чип умножает восьмибитные числа.

Привет, Хабр! Меня зовут Сергей Ковалёв, я менеджер выделенных серверов в Selectel. В этой статье мы мысленно «разберем» MI430X и обсудим, насколько новинка подходит для «ядерных расчетов» и машинного обучения. Подробности под катом!

Узнать подробности

Калькулятор VRAM для локальных LLM: Какие модели ИИ запустятся у вас на компьютере?

Уровень сложностиСредний
Время на прочтение9 мин
Охват и читатели17K

Когда я начал ковыряться с локальными LLM, главная боль была не в установке моделей, а в понимании, что вообще влезет в моё железо. Документация Hugging Face говорит “Llama 3.1 8B” — что это значит для моей видеокарты с 16 GB? А если хочу 32k контекст? А с Q4_K_M? Несколько недель назад мне попался open-source калькулятор whatmodelscanirun.ru. Прогнал его на трёх своих сетапах (4060 Ti, 3090, M2 Pro), сравнил предсказания с реальными запусками через llama.cpp и разобрался, как работает математика внутри. Спойлер: алгоритм правильный, но систематически переоценивает скорость на 15-25%.

Читать далее

Зачем AMD это сделали? Instinct MI350P на 144 ГБ

Время на прочтение4 мин
Охват и читатели13K

Актуальное на сегодняшний день поколение серверных ускорителей AMD — это MI350X и MI355X на архитектуре CDNA 4. Это уже серьезные машины для обучения и инференса больших моделей — с соответствующей ценой и требованиями к электроснабжению и охлаждению.

Несколько дней назад AMD анонсировали GPU Instinct MI350P — первую с 2022 года PCIe-карту серии Instinct, которая устанавливается в любой сервер с поддержкой двухслотовых GPU с воздушным охлаждением. Удобно и универсально, новинку точно стоит рассмотреть подробнее.

Читать далее

Обзор серверного ускорителя NVIDIA Tesla V100 16 Gb в корпусе от RTX 4090: Часть 2 — Тестирование в бенчмарках и играх

Уровень сложностиПростой
Время на прочтение9 мин
Охват и читатели15K

Обзор серверного ускорителя NVIDIA Tesla V100 16 Gb в корпусе от RTX 4090: Часть 2 — Тестирование в бенчмарках и играх

Читать далее
1
23 ...