Обновить
128K+

Видеокарты

Графические адаптеры

77,31
Рейтинг
Сначала показывать
Порог рейтинга
Уровень сложности

Настоящий медный custom

Время на прочтение18 мин
Охват и читатели11K

Что делать, если акрил кажется слишком хрупким, шланги мутнеют, а твоя RTX 4080 воет под нагрузкой?

Правильно! Взять полтора метра 15миллиметровой водопроводной меди, газовую горелку, собрать плоскошлифовальный станок из дрели и построить бесшумный реактор вопреки всем проблемам, которые препятствуют этому....

Читать далее

Новости

Масштабирование LLM: от одного чипа до ЦОДа. Глава 3. Сколько ресурсов нужно для LLM?

Уровень сложностиСредний
Время на прочтение8 мин
Охват и читатели6.7K

Это продолжение цикла статей о масштабировании тренировки и инференса LLM.

Предыдущая статья

А теперь перейдем к чему-то более практическому, а именно к тому, сколько нужно FLOPs и байт для работы трансформера. Подразумевается, что у вас уже есть представление о том, что такое архитектура трансформера, как работает механизм внимания и т.д.

Давайте начнем с векторов x, y и матриц A, B, имеющих вот такие размеры, допустим один элемент занимает при этом один байт.

Читать далее

DRAйверы для GPU: как Kubernetes научился выделять устройства через стандартный API

Уровень сложностиСложный
Время на прочтение20 мин
Охват и читатели7.9K

Device Plugin в Kubernetes сводит GPU к счётчику на узле: планировщик видит только количество устройств, но не их профиль, объём памяти или режим шаринга. Для ML-задач это быстро становится ограничением. Обучению нужны выделенные карточки целиком, инференсу — управляемые доли, а CI хватит и четвертинки NVIDIA H100 на пять минут. 

Dynamic Resource Allocation полностью меняет модель управления устройствами. GPU становятся сущностью с инвентарём, атрибутами и правилами выбора. В статье я разбираю устройство DRA и показываю миграцию с device plugin на примере кластера из 8 узлов × 8 NVIDIA H100 без полного переписывания манифестов. А ещё объясняю, почему мы в Deckhouse пишем свой DRA-драйвер.

Разобраться с DRA

20 лет видеокарт в цифрах: как росли FLOPS и TDP и кто вёл в дуэли NVIDIA vs AMD (+ открытый датасет на 13 500 GPU)

Уровень сложностиСредний
Время на прочтение5 мин
Охват и читатели10K

Мы свели в одну базу характеристики 13 566 видеокарт — от GeForce 256 (1999) до Blackwell и MI355X (2025) — и посмотрели, как за 20 лет менялась индустрия, а не отдельные карты. FP32 флагманов вырос примерно в 400 раз, теплопакет дополз со 155 до 1400 Вт, зато производительность на ватт — в ~100 раз. По годам разобрали, кто на самом деле вёл в дуэли NVIDIA против AMD (спойлер: «сырой FP32» — метрика обманчивая, и AMD лидировала чаще, чем принято думать), и почему настоящая битва давно ушла в tensor-вычисления. А весь очищенный датасет (CSV + SQLite, 13.5k GPU + бенчмарки) выложили открыто под CC BY 4.0 — забирайте и копайте с нами.

Читать далее

Обзор серверного ускорителя NVIDIA Tesla V100 16 Gb в корпусе от RTX 4090: Часть 3 — Запуск локальных моделей ИИ

Уровень сложностиСредний
Время на прочтение12 мин
Охват и читатели12K

Обзор серверного ускорителя NVIDIA Tesla V100 16 Gb в корпусе от RTX 4090: Часть 3 - Запуск локальных моделей ИИ

Читать далее

Масштабирование LLM: от одного чипа до ЦОДа. Глава 2. Шардинг

Уровень сложностиСредний
Время на прочтение8 мин
Охват и читатели7.4K

Это продолжение цикла статей о масштабировании тренировки и инференса LLM. Предыдущая глава находится по этой ссылке.

Итак, с основами разобрались, давайте теперь разбираться с тем, как распихать матрицы по нескольким чипам, перемножить, а затем собрать это все в удобоваримый результат. По-умному это называется шардинг.

Для начала давайте определимся, зачем этот шардинг вообще нужен. А нужен он потому что, как я уже писал в предыдущей статье, при работе с действительно большими нейронками матрицы и вектора практически никогда целиком не влезают в память одного GPU/TPU, поэтому их приходится разделять или шардировать. От того, насколько грамотно произведен шардинг, зависит то, насколько эффективно используется наш массив ускорителей, а следовательно и скорость тренировки, эффективность расхода вычислительных ресурсов и т.д.

Возьмем для примера матрицу A размера [I, J] и распределим ее на 4 ускорителя:

Читать далее

Китайцы ответили на H200 — обзор Zhenwu M890 от Alibaba

Время на прочтение5 мин
Охват и читатели14K

20 мая на ежегодном Alibaba Cloud Summit T-Head полупроводниковое подразделение Alibaba представила новое поколение GPU — Zhenwu M890. Это ускоритель с 144 ГБ памяти HBM на борту и возможностью интерконнекта между устройствами до 800 ГБ/с. На основе этого устройства также была представлен суперсервер Panjiu AL128 — стойка из 128 ускорителей M890, объединенных собственным коммутатором ICN Switch 1.0.

Предложение уже доступно китайским корпоративным клиентам и поддерживает Qwen, DeepSeek и Kimi. Но что там с характеристиками? Разбираемся под катом.

Читать далее

LLM-инференс на фотонах? Препарируем передовые технологии, представленные в апреле

Время на прочтение9 мин
Охват и читатели14K

Majestic Labs Prometheus, Kingston DC3000ME на 30,72 ТБ, TPU восьмого поколения от Google и не только... Как всегда, вендоры не дремлют и участвует в AI-гонке. И должен признать, иногда это приводит к появлению крайне неординарных решений на рынке.

Привет, Хабр! Меня зовут Сергей Ковалёв, я менеджер выделенных серверов в Selectel. В новом дайджесте собрал самые актуальные и передовые новинки в мире железа. Читайте, делитесь своим мнением — в общем, добро пожаловать под кат!

Читать далее

Как развернуть Mistral 7B на GPU-сервере через vLLM

Время на прочтение6 мин
Охват и читатели11K

Если бюджет и ресурсы ограничены, а развернуть self-hosted LLM нужно, присмотритесь к такой связке: Mistral-7B-Instruct-v0.3 + виртуальная машина с RTX A5000 24GB в облаке + vLLM. Да, это далеко не энтерпрайз-уровень, но для некоторых базовых сценариев результат работы будет очень даже хорошим.

Собственно, в этой статье мы развернем сервер с GPU, подготовим Python-окружение, установим vLLM, запустим модель, отправим тестовый запрос через API и посмотрим на базовые метрики, которые помогут оценить выбранную конфигурацию.

Читать далее

GDDRHammer и GeForge— анатомия атак, превративших видеопамять в оружие

Уровень сложностиСредний
Время на прочтение7 мин
Охват и читатели9.6K

Существует множество программных угроз для систем ИИ. Но я расскажу о GDDRHammer — атаке на аппаратную часть. Разберу эту атаку до винтика, то есть покажу, как она реализуется на физическом уровне, и сравню с атакой GeForge того же класса.

Читать далее

Самый настоящий FP64 для ядерных расчетов? Анонс AMD Instinct MI430X

Время на прочтение5 мин
Охват и читатели16K

На майском HPC User Forum в Остине AMD рассказали о MI430X — ускорителе серии MI400, который позиционируется как инструмент для научных вычислений. Пока индустрия увлечена инференсом и считает токены в секунду на FP4, AMD напомнила, что CFD-код (Computational Fluid Dynamics) не интересует, насколько быстро чип умножает восьмибитные числа.

Привет, Хабр! Меня зовут Сергей Ковалёв, я менеджер выделенных серверов в Selectel. В этой статье мы мысленно «разберем» MI430X и обсудим, насколько новинка подходит для «ядерных расчетов» и машинного обучения. Подробности под катом!

Узнать подробности

Калькулятор VRAM для локальных LLM: Какие модели ИИ запустятся у вас на компьютере?

Уровень сложностиСредний
Время на прочтение9 мин
Охват и читатели17K

Когда я начал ковыряться с локальными LLM, главная боль была не в установке моделей, а в понимании, что вообще влезет в моё железо. Документация Hugging Face говорит “Llama 3.1 8B” — что это значит для моей видеокарты с 16 GB? А если хочу 32k контекст? А с Q4_K_M? Несколько недель назад мне попался open-source калькулятор whatmodelscanirun.ru. Прогнал его на трёх своих сетапах (4060 Ti, 3090, M2 Pro), сравнил предсказания с реальными запусками через llama.cpp и разобрался, как работает математика внутри. Спойлер: алгоритм правильный, но систематически переоценивает скорость на 15-25%.

Читать далее

Зачем AMD это сделали? Instinct MI350P на 144 ГБ

Время на прочтение4 мин
Охват и читатели13K

Актуальное на сегодняшний день поколение серверных ускорителей AMD — это MI350X и MI355X на архитектуре CDNA 4. Это уже серьезные машины для обучения и инференса больших моделей — с соответствующей ценой и требованиями к электроснабжению и охлаждению.

Несколько дней назад AMD анонсировали GPU Instinct MI350P — первую с 2022 года PCIe-карту серии Instinct, которая устанавливается в любой сервер с поддержкой двухслотовых GPU с воздушным охлаждением. Удобно и универсально, новинку точно стоит рассмотреть подробнее.

Читать далее

Ближайшие события

Обзор серверного ускорителя NVIDIA Tesla V100 16 Gb в корпусе от RTX 4090: Часть 2 — Тестирование в бенчмарках и играх

Уровень сложностиПростой
Время на прочтение9 мин
Охват и читатели15K

Обзор серверного ускорителя NVIDIA Tesla V100 16 Gb в корпусе от RTX 4090: Часть 2 — Тестирование в бенчмарках и играх

Читать далее

SpaceX собирается выпускать собственные GPU

Время на прочтение4 мин
Охват и читатели12K

Нет, не для того, чтобы вытеснить с рынка NVIDIA, хотя в перспективе и такое возможно. Как бы то ни было, компания SpaceX неожиданно раскрыла планы по созданию собственных графических процессоров. Пока речь идет только о планах по выпуску продукции под собственные нужды (да, в космосе тоже нужны GPU). Посмотрим, что и зачем планирует выпускать корпорация Илона Маска.

Читать далее

Мы уткнулись в потолок. Почему видеокарты перестали быстро расти — и что с этим делать

Уровень сложностиСредний
Время на прочтение4 мин
Охват и читатели12K

H100 стоит $30 000 и потребляет 700 Вт. RTX 5090 — $2 000 (де-факто больше) и 575 Вт. Прирост производительности между поколениями сжался с 80% до 15–20%. Разбираемся, почему это структурная проблема и что индустрия делает, чтобы с ней жить.

Читать далее

Обзор серверного ускорителя NVIDIA Tesla V100 16 Gb в корпусе от RTX 4090: Часть 1 — Внешний вид, установка и настройка

Уровень сложностиПростой
Время на прочтение6 мин
Охват и читатели15K

Обзор серверного ускорителя NVIDIA Tesla V100 16 Gb в корпусе от RTX 4090: Часть 1 - Внешний вид, установка и настройка

Читать далее

Новый GPU в противовес NVIDIA? Bolt Graphics Zeus

Время на прочтение6 мин
Охват и читатели11K

22 апреля 2026 года Bolt Graphics объявила об успешном финальном этапе проектирования тестового чипа Zeus на производственных мощностях TSMC. Напомню, это стартап из Калифорнии, основанный в 2020 году. Создатель компании до текущей деятельности занимался проектированием дата-центров и облачной инфраструктуры, но впоследствии переключился на создание GPU для рендеринга.

Что это, значимая новость для индустрии или очередной «прожект»? Новые GPU, имена и конкуренция мэтрам — это всегда хорошо для конечного клиента и двигает рынок вперед. Рассмотрим стадию создания продукта, его технические характеристики и место под солнцем в новостной статье.

Читать далее

12 ГБ видеопамяти в 2026 году: хватает или уже нет?

Время на прочтение10 мин
Охват и читатели18K

Когда NVIDIA выпустила RTX 5070 с 12 ГБ видеопамяти, фанаты, мягко говоря, напряглись. Потому что плюс‑минус за те же деньги, например, можно было взять либо Radeon RX 9070, либо RX 9060 XT, но получить уже на треть VRAM больше. Странно? Еще как. Но NVIDIA это не сильно смущало. Она, кажется, точно знала, что делает, поскольку в модельном ряду ее видеокарт сохранялись не только 12-, но и 8-гигабайтные версии. Это создавало ощущение полного самоконтроля. Но прошло 2 года, и многим стало ясно, что 12 ГБ видеопамяти скоро хватать перестанет.

Читать далее

Какую видеокарту под какой бюджет купить: иерархия лучших GPU с российскими ценами

Уровень сложностиПростой
Время на прочтение12 мин
Охват и читатели18K

Каждый год кто-нибудь публикует очередную «иерархию видеокарт» — таблицу, где все GPU выстроены по производительности. Tom's Hardware делает это ежемесячно, ComputerBase обновляет свои графики после каждого релиза, а блогеры штампуют «лучшие карты 2026» чуть ли не еженедельно. Проблема в том, что все эти рейтинги составлены в долларах и евро. А в рублях, как вы и сами знаете, всё работает иначе. Карта, которая в Штатах стоит «как соседняя по иерархии», у нас может отличаться от неё на 15–20 тысяч. И наоборот: то, что в Европе считается переоценённым, в российской рознице иногда оказывается единственным разумным вариантом.

Поэтому мы решили сделать свою иерархию. С российскими ценами, российскими реалиями и без маркетинговых реверансов в сторону какого-либо производителя. Просто карты, цены, кадры в секунду — и честный ответ на вопрос «что, собственно, брать».

Читать далее
1
23 ...