Обновить
128K+

Видеокарты

Графические адаптеры

53,62
Рейтинг
Сначала показывать
Порог рейтинга
Уровень сложности

Почему говорят, что у AMD драйверы хуже, чем у NVIDIA

Уровень сложностиПростой
Время на прочтение4 мин
Охват и читатели5.4K

Tom's Hardware в июне пересобрал рейтинг лучших игровых видеокарт. Инфоповод подхватили буквально все, но сам по себе он не так интересен, как один посыл, который дали авторы. Сначала они назвали лучшей картой высокого класса GeForce RTX 5070 Ti. А ее прямого конкурента, Radeon RX 9070 XT, удостоили далеко не самой лестной оценки. Причем не за скорость: AMD стоит почти на треть дешевле и в чистой растеризации отстает на считанные проценты. Вот только, по мнению издания, у AMD сырая экосистема и проблемные драйверы, что перевешивает всю выгоду в цене. Обвинять AMD в плохих драйверах в 2026 году довольно смело, особенно если вспомнить, что творилось у NVIDIA последние полтора года.

Читать далее

Новости

Дело на вечер: собираем домашний ИИ-сервер

Уровень сложностиПростой
Время на прочтение2 мин
Охват и читатели17K

Конечно, можно купить готовый (за ~1.3 млн. руб. есть неплохие варианты), но нам ведь главное процесс, ведь так? К тому же, не все готовы выложить такую сумму за возможность запускать дома нейронку. Итак, что нам пригодится, чтобы влезть в бюджет до 400 тыс. руб.:

Читать далее

Как мы валидировали сервер YADRO для NVIDIA H100 Special

Время на прочтение7 мин
Охват и читатели10K

Недавно на рынке появились карты NVIDIA H100 в форм-факторе PCIe, построенные на основе извлеченных из HGX-модулей SXM-чипов. Но точно ли их производительность не уступает производительности оригинальных NVIDIA H100 NVL? 

Меня зовут Артём Маклаев, вместе с командой я занимаюсь оценкой производительности серверных платформ для задач искусственного интеллекта в YADRO. В целях эксперимента мы решили сравнить показатели PCIe-карты NVIDIA H100 (дальше по тексту буду называть их NVIDIA H100 Special) и NVIDIA H100 NVL. Для этого провели испытания с использованием сервера YADRO G4208P G3. Методику построили так, чтобы результат можно было проверить и воспроизвести: для сравнения использовали одинаковую серверную платформу, одинаковые версии драйвера, CUDA и ОС, а также два уровня тестов — прикладной vLLM benchmark и NCCL all_reduce_perf для проверки GPU-интерконнекта. 

В статье покажу результаты бенчмарков на типовых LLM-конфигурациях и дам рекомендации, как валидировать ускорители перед включением в проектный или продуктовый контур. Будет полезно, если приобретаете карты для работы над задачами ИИ.

Читать далее

Tensordyne Napier — еще одно решение на замену традиционных GPU в инференсе

Уровень сложностиПростой
Время на прочтение6 мин
Охват и читатели12K

Почти каждый месяц очередной стартап, производящий серверное железо, объявляет о своих ноу-хау. Естественно, ориентированных на задачи инференса и обучения ML-моделей. И пусть до реального использования в дата-центрах доходит лишь малая их часть, мы стараемся следить за всеми апдейтами, чтобы не пропустить ту новинку, которая, возможно, изменит рынок. С вами Сергей Ковалёв, менеджер продукта Selectel, а под катом вас ждут подробности об очередной чудо-железке.

Читать далее

Как ИИ помогает Linux возвращать к жизни двадцатилетние видеокарты

Уровень сложностиПростой
Время на прочтение6 мин
Охват и читатели17K

В последние годы купить новую видеокарту стало заметно сложнее и дороже. Одной из причин стал бурный рост систем искусственного интеллекта, для которых требуются огромные объемы вычислительных ресурсов. Крупные компании активно скупают графические ускорители для своих дата-центров, что влияет и на обычный рынок. В результате многие владельцы компьютеров не спешат с обновлением и продолжают использовать уже имеющееся железо или ищут недорогие варианты на вторичном рынке.

В мире open-source эта ситуация привела к довольно неожиданному результату. Разработчики Linux продолжают поддерживать видеокарты, которым уже почти два десятилетия, адаптируя драйверы под современные версии системы. Любопытно, что помогает им в этом технология, которую многие считают одной из причин нынешнего дефицита ускорителей, — генеративный искусственный интеллект. Недавняя история с доработкой драйвера для видеокарт AMD, выпущенных еще в 2007–2010 годах, наглядно показывает, как подобные инструменты используются в реальной разработке. Мы уже писали новость об этом, а теперь давайте разберемся подробнее.

Читать далее

Нейросетевой эквалайзер на PlutoSDR: от синтетики к железу

Уровень сложностиСредний
Время на прочтение4 мин
Охват и читатели7K

Любой реальный радиоканал «размазывает» символы во времени: соседние отсчёты накладываются друг на друга, и приёмник видит межсимвольную интерференцию (ISI). Классический способ с этим бороться — адаптивный фильтр LMS. Он прост, дёшев и хорошо работает, пока канал близок к линейному. Но это именно линейный фильтр: когда лучей несколько и у них разные фазы, одной линейной комбинацией отсчётов идеально восстановить символ уже не получается.

Отсюда идея, которую я и проверял: заменить (или дополнить) LMS компактной свёрточной сетью. Сеть смотрит не на один отсчёт, а на целое окно принятого сигнала и учится по нему обратному отображению канала — то есть восстанавливать исходную точку созвездия с учётом совместной статистики соседних символов. Сначала всё это обучается и сравнивается на синтетике, а потом проверяется на настоящем железе — модуле ADALM‑PLUTO.

Читать далее

Рабочий стол в LXC-контейнере: детективная история о протоколах, тупиках и самописном Wayland-композиторе

Время на прочтение24 мин
Охват и читатели12K

Домашний облачный рабочий стол и гейминг в контейнере, с общим GPU. Готового решения не было — пришлось пройти четыре тупика и написать свой Wayland-композитор.

Читать исследование

Как я установил в свой игровой ПК серверный GPU за £200

Уровень сложностиСредний
Время на прочтение10 мин
Охват и читатели22K

У меня уже была установлена RTX 4080 с 16 ГБ VRAM. Её вполне достаточно для гейминга, но не для моделей, которые я хотел запускать локально. Так что следующим шагом было либо приобретение дорогущей карточки с большим объёмом памяти, либо поиск другого способа.

И я этот способ нашёл.

Я купил видеокарту для датацентра, у которой даже нет нормального коннектора PCIe, и подключил её к ПК через адаптер. Теперь у меня в системе 32 ГБ VRAM от двух GPU, на которых работает модель с 27 миллиардами параметров, выдавая по 32 токена в секунду. И обошлось мне это всего в £200.

Читать далее

Настоящий медный custom

Время на прочтение18 мин
Охват и читатели16K

Что делать, если акрил кажется слишком хрупким, шланги мутнеют, а твоя RTX 4080 воет под нагрузкой?

Правильно! Взять полтора метра 15миллиметровой водопроводной меди, газовую горелку, собрать плоскошлифовальный станок из дрели и построить бесшумный реактор вопреки всем проблемам, которые препятствуют этому....

Читать далее

Масштабирование LLM: от одного чипа до ЦОДа. Глава 3. Сколько ресурсов нужно для LLM?

Уровень сложностиСредний
Время на прочтение8 мин
Охват и читатели6.7K

Это продолжение цикла статей о масштабировании тренировки и инференса LLM.

Предыдущая статья

А теперь перейдем к чему-то более практическому, а именно к тому, сколько нужно FLOPs и байт для работы трансформера. Подразумевается, что у вас уже есть представление о том, что такое архитектура трансформера, как работает механизм внимания и т.д.

Давайте начнем с векторов x, y и матриц A, B, имеющих вот такие размеры, допустим один элемент занимает при этом один байт.

Читать далее

DRAйверы для GPU: как Kubernetes научился выделять устройства через стандартный API

Уровень сложностиСложный
Время на прочтение20 мин
Охват и читатели8.3K

Device Plugin в Kubernetes сводит GPU к счётчику на узле: планировщик видит только количество устройств, но не их профиль, объём памяти или режим шаринга. Для ML-задач это быстро становится ограничением. Обучению нужны выделенные карточки целиком, инференсу — управляемые доли, а CI хватит и четвертинки NVIDIA H100 на пять минут. 

Dynamic Resource Allocation полностью меняет модель управления устройствами. GPU становятся сущностью с инвентарём, атрибутами и правилами выбора. В статье я разбираю устройство DRA и показываю миграцию с device plugin на примере кластера из 8 узлов × 8 NVIDIA H100 без полного переписывания манифестов. А ещё объясняю, почему мы в Deckhouse пишем свой DRA-драйвер.

Разобраться с DRA

20 лет видеокарт в цифрах: как росли FLOPS и TDP и кто вёл в дуэли NVIDIA vs AMD (+ открытый датасет на 13 500 GPU)

Уровень сложностиСредний
Время на прочтение5 мин
Охват и читатели11K

Мы свели в одну базу характеристики 13 566 видеокарт — от GeForce 256 (1999) до Blackwell и MI355X (2025) — и посмотрели, как за 20 лет менялась индустрия, а не отдельные карты. FP32 флагманов вырос примерно в 400 раз, теплопакет дополз со 155 до 1400 Вт, зато производительность на ватт — в ~100 раз. По годам разобрали, кто на самом деле вёл в дуэли NVIDIA против AMD (спойлер: «сырой FP32» — метрика обманчивая, и AMD лидировала чаще, чем принято думать), и почему настоящая битва давно ушла в tensor-вычисления. А весь очищенный датасет (CSV + SQLite, 13.5k GPU + бенчмарки) выложили открыто под CC BY 4.0 — забирайте и копайте с нами.

Читать далее

Обзор серверного ускорителя NVIDIA Tesla V100 16 Gb в корпусе от RTX 4090: Часть 3 — Запуск локальных моделей ИИ

Уровень сложностиСредний
Время на прочтение12 мин
Охват и читатели13K

Обзор серверного ускорителя NVIDIA Tesla V100 16 Gb в корпусе от RTX 4090: Часть 3 - Запуск локальных моделей ИИ

Читать далее

Ближайшие события

Масштабирование LLM: от одного чипа до ЦОДа. Глава 2. Шардинг

Уровень сложностиСредний
Время на прочтение8 мин
Охват и читатели7.5K

Это продолжение цикла статей о масштабировании тренировки и инференса LLM. Предыдущая глава находится по этой ссылке.

Итак, с основами разобрались, давайте теперь разбираться с тем, как распихать матрицы по нескольким чипам, перемножить, а затем собрать это все в удобоваримый результат. По-умному это называется шардинг.

Для начала давайте определимся, зачем этот шардинг вообще нужен. А нужен он потому что, как я уже писал в предыдущей статье, при работе с действительно большими нейронками матрицы и вектора практически никогда целиком не влезают в память одного GPU/TPU, поэтому их приходится разделять или шардировать. От того, насколько грамотно произведен шардинг, зависит то, насколько эффективно используется наш массив ускорителей, а следовательно и скорость тренировки, эффективность расхода вычислительных ресурсов и т.д.

Возьмем для примера матрицу A размера [I, J] и распределим ее на 4 ускорителя:

Читать далее

Китайцы ответили на H200 — обзор Zhenwu M890 от Alibaba

Время на прочтение5 мин
Охват и читатели14K

20 мая на ежегодном Alibaba Cloud Summit T-Head полупроводниковое подразделение Alibaba представила новое поколение GPU — Zhenwu M890. Это ускоритель с 144 ГБ памяти HBM на борту и возможностью интерконнекта между устройствами до 800 ГБ/с. На основе этого устройства также была представлен суперсервер Panjiu AL128 — стойка из 128 ускорителей M890, объединенных собственным коммутатором ICN Switch 1.0.

Предложение уже доступно китайским корпоративным клиентам и поддерживает Qwen, DeepSeek и Kimi. Но что там с характеристиками? Разбираемся под катом.

Читать далее

LLM-инференс на фотонах? Препарируем передовые технологии, представленные в апреле

Время на прочтение9 мин
Охват и читатели14K

Majestic Labs Prometheus, Kingston DC3000ME на 30,72 ТБ, TPU восьмого поколения от Google и не только... Как всегда, вендоры не дремлют и участвует в AI-гонке. И должен признать, иногда это приводит к появлению крайне неординарных решений на рынке.

Привет, Хабр! Меня зовут Сергей Ковалёв, я менеджер выделенных серверов в Selectel. В новом дайджесте собрал самые актуальные и передовые новинки в мире железа. Читайте, делитесь своим мнением — в общем, добро пожаловать под кат!

Читать далее

Как развернуть Mistral 7B на GPU-сервере через vLLM

Время на прочтение6 мин
Охват и читатели11K

Если бюджет и ресурсы ограничены, а развернуть self-hosted LLM нужно, присмотритесь к такой связке: Mistral-7B-Instruct-v0.3 + виртуальная машина с RTX A5000 24GB в облаке + vLLM. Да, это далеко не энтерпрайз-уровень, но для некоторых базовых сценариев результат работы будет очень даже хорошим.

Собственно, в этой статье мы развернем сервер с GPU, подготовим Python-окружение, установим vLLM, запустим модель, отправим тестовый запрос через API и посмотрим на базовые метрики, которые помогут оценить выбранную конфигурацию.

Читать далее

GDDRHammer и GeForge— анатомия атак, превративших видеопамять в оружие

Уровень сложностиСредний
Время на прочтение7 мин
Охват и читатели9.8K

Существует множество программных угроз для систем ИИ. Но я расскажу о GDDRHammer — атаке на аппаратную часть. Разберу эту атаку до винтика, то есть покажу, как она реализуется на физическом уровне, и сравню с атакой GeForge того же класса.

Читать далее

Самый настоящий FP64 для ядерных расчетов? Анонс AMD Instinct MI430X

Время на прочтение5 мин
Охват и читатели16K

На майском HPC User Forum в Остине AMD рассказали о MI430X — ускорителе серии MI400, который позиционируется как инструмент для научных вычислений. Пока индустрия увлечена инференсом и считает токены в секунду на FP4, AMD напомнила, что CFD-код (Computational Fluid Dynamics) не интересует, насколько быстро чип умножает восьмибитные числа.

Привет, Хабр! Меня зовут Сергей Ковалёв, я менеджер выделенных серверов в Selectel. В этой статье мы мысленно «разберем» MI430X и обсудим, насколько новинка подходит для «ядерных расчетов» и машинного обучения. Подробности под катом!

Узнать подробности

Калькулятор VRAM для локальных LLM: Какие модели ИИ запустятся у вас на компьютере?

Уровень сложностиСредний
Время на прочтение9 мин
Охват и читатели18K

Когда я начал ковыряться с локальными LLM, главная боль была не в установке моделей, а в понимании, что вообще влезет в моё железо. Документация Hugging Face говорит “Llama 3.1 8B” — что это значит для моей видеокарты с 16 GB? А если хочу 32k контекст? А с Q4_K_M? Несколько недель назад мне попался open-source калькулятор whatmodelscanirun.ru. Прогнал его на трёх своих сетапах (4060 Ti, 3090, M2 Pro), сравнил предсказания с реальными запусками через llama.cpp и разобрался, как работает математика внутри. Спойлер: алгоритм правильный, но систематически переоценивает скорость на 15-25%.

Читать далее
1
23 ...