Обновить
128K+

Видеокарты

Графические адаптеры

85,12
Рейтинг
Сначала показывать
Порог рейтинга
Уровень сложности

Рабочий стол в LXC-контейнере: детективная история о протоколах, тупиках и самописном Wayland-композиторе

Время на прочтение24 мин
Охват и читатели10K

Домашний облачный рабочий стол и гейминг в контейнере, с общим GPU. Готового решения не было — пришлось пройти четыре тупика и написать свой Wayland-композитор.

Читать исследование

Новости

Как я установил в свой игровой ПК серверный GPU за £200

Уровень сложностиСредний
Время на прочтение10 мин
Охват и читатели20K

У меня уже была установлена RTX 4080 с 16 ГБ VRAM. Её вполне достаточно для гейминга, но не для моделей, которые я хотел запускать локально. Так что следующим шагом было либо приобретение дорогущей карточки с большим объёмом памяти, либо поиск другого способа.

И я этот способ нашёл.

Я купил видеокарту для датацентра, у которой даже нет нормального коннектора PCIe, и подключил её к ПК через адаптер. Теперь у меня в системе 32 ГБ VRAM от двух GPU, на которых работает модель с 27 миллиардами параметров, выдавая по 32 токена в секунду. И обошлось мне это всего в £200.

Читать далее

Настоящий медный custom

Время на прочтение18 мин
Охват и читатели15K

Что делать, если акрил кажется слишком хрупким, шланги мутнеют, а твоя RTX 4080 воет под нагрузкой?

Правильно! Взять полтора метра 15миллиметровой водопроводной меди, газовую горелку, собрать плоскошлифовальный станок из дрели и построить бесшумный реактор вопреки всем проблемам, которые препятствуют этому....

Читать далее

Масштабирование LLM: от одного чипа до ЦОДа. Глава 3. Сколько ресурсов нужно для LLM?

Уровень сложностиСредний
Время на прочтение8 мин
Охват и читатели6.7K

Это продолжение цикла статей о масштабировании тренировки и инференса LLM.

Предыдущая статья

А теперь перейдем к чему-то более практическому, а именно к тому, сколько нужно FLOPs и байт для работы трансформера. Подразумевается, что у вас уже есть представление о том, что такое архитектура трансформера, как работает механизм внимания и т.д.

Давайте начнем с векторов x, y и матриц A, B, имеющих вот такие размеры, допустим один элемент занимает при этом один байт.

Читать далее

DRAйверы для GPU: как Kubernetes научился выделять устройства через стандартный API

Уровень сложностиСложный
Время на прочтение20 мин
Охват и читатели8.1K

Device Plugin в Kubernetes сводит GPU к счётчику на узле: планировщик видит только количество устройств, но не их профиль, объём памяти или режим шаринга. Для ML-задач это быстро становится ограничением. Обучению нужны выделенные карточки целиком, инференсу — управляемые доли, а CI хватит и четвертинки NVIDIA H100 на пять минут. 

Dynamic Resource Allocation полностью меняет модель управления устройствами. GPU становятся сущностью с инвентарём, атрибутами и правилами выбора. В статье я разбираю устройство DRA и показываю миграцию с device plugin на примере кластера из 8 узлов × 8 NVIDIA H100 без полного переписывания манифестов. А ещё объясняю, почему мы в Deckhouse пишем свой DRA-драйвер.

Разобраться с DRA

20 лет видеокарт в цифрах: как росли FLOPS и TDP и кто вёл в дуэли NVIDIA vs AMD (+ открытый датасет на 13 500 GPU)

Уровень сложностиСредний
Время на прочтение5 мин
Охват и читатели10K

Мы свели в одну базу характеристики 13 566 видеокарт — от GeForce 256 (1999) до Blackwell и MI355X (2025) — и посмотрели, как за 20 лет менялась индустрия, а не отдельные карты. FP32 флагманов вырос примерно в 400 раз, теплопакет дополз со 155 до 1400 Вт, зато производительность на ватт — в ~100 раз. По годам разобрали, кто на самом деле вёл в дуэли NVIDIA против AMD (спойлер: «сырой FP32» — метрика обманчивая, и AMD лидировала чаще, чем принято думать), и почему настоящая битва давно ушла в tensor-вычисления. А весь очищенный датасет (CSV + SQLite, 13.5k GPU + бенчмарки) выложили открыто под CC BY 4.0 — забирайте и копайте с нами.

Читать далее

Обзор серверного ускорителя NVIDIA Tesla V100 16 Gb в корпусе от RTX 4090: Часть 3 — Запуск локальных моделей ИИ

Уровень сложностиСредний
Время на прочтение12 мин
Охват и читатели12K

Обзор серверного ускорителя NVIDIA Tesla V100 16 Gb в корпусе от RTX 4090: Часть 3 - Запуск локальных моделей ИИ

Читать далее

Масштабирование LLM: от одного чипа до ЦОДа. Глава 2. Шардинг

Уровень сложностиСредний
Время на прочтение8 мин
Охват и читатели7.4K

Это продолжение цикла статей о масштабировании тренировки и инференса LLM. Предыдущая глава находится по этой ссылке.

Итак, с основами разобрались, давайте теперь разбираться с тем, как распихать матрицы по нескольким чипам, перемножить, а затем собрать это все в удобоваримый результат. По-умному это называется шардинг.

Для начала давайте определимся, зачем этот шардинг вообще нужен. А нужен он потому что, как я уже писал в предыдущей статье, при работе с действительно большими нейронками матрицы и вектора практически никогда целиком не влезают в память одного GPU/TPU, поэтому их приходится разделять или шардировать. От того, насколько грамотно произведен шардинг, зависит то, насколько эффективно используется наш массив ускорителей, а следовательно и скорость тренировки, эффективность расхода вычислительных ресурсов и т.д.

Возьмем для примера матрицу A размера [I, J] и распределим ее на 4 ускорителя:

Читать далее

Китайцы ответили на H200 — обзор Zhenwu M890 от Alibaba

Время на прочтение5 мин
Охват и читатели14K

20 мая на ежегодном Alibaba Cloud Summit T-Head полупроводниковое подразделение Alibaba представила новое поколение GPU — Zhenwu M890. Это ускоритель с 144 ГБ памяти HBM на борту и возможностью интерконнекта между устройствами до 800 ГБ/с. На основе этого устройства также была представлен суперсервер Panjiu AL128 — стойка из 128 ускорителей M890, объединенных собственным коммутатором ICN Switch 1.0.

Предложение уже доступно китайским корпоративным клиентам и поддерживает Qwen, DeepSeek и Kimi. Но что там с характеристиками? Разбираемся под катом.

Читать далее

LLM-инференс на фотонах? Препарируем передовые технологии, представленные в апреле

Время на прочтение9 мин
Охват и читатели14K

Majestic Labs Prometheus, Kingston DC3000ME на 30,72 ТБ, TPU восьмого поколения от Google и не только... Как всегда, вендоры не дремлют и участвует в AI-гонке. И должен признать, иногда это приводит к появлению крайне неординарных решений на рынке.

Привет, Хабр! Меня зовут Сергей Ковалёв, я менеджер выделенных серверов в Selectel. В новом дайджесте собрал самые актуальные и передовые новинки в мире железа. Читайте, делитесь своим мнением — в общем, добро пожаловать под кат!

Читать далее

Как развернуть Mistral 7B на GPU-сервере через vLLM

Время на прочтение6 мин
Охват и читатели11K

Если бюджет и ресурсы ограничены, а развернуть self-hosted LLM нужно, присмотритесь к такой связке: Mistral-7B-Instruct-v0.3 + виртуальная машина с RTX A5000 24GB в облаке + vLLM. Да, это далеко не энтерпрайз-уровень, но для некоторых базовых сценариев результат работы будет очень даже хорошим.

Собственно, в этой статье мы развернем сервер с GPU, подготовим Python-окружение, установим vLLM, запустим модель, отправим тестовый запрос через API и посмотрим на базовые метрики, которые помогут оценить выбранную конфигурацию.

Читать далее

GDDRHammer и GeForge— анатомия атак, превративших видеопамять в оружие

Уровень сложностиСредний
Время на прочтение7 мин
Охват и читатели9.7K

Существует множество программных угроз для систем ИИ. Но я расскажу о GDDRHammer — атаке на аппаратную часть. Разберу эту атаку до винтика, то есть покажу, как она реализуется на физическом уровне, и сравню с атакой GeForge того же класса.

Читать далее

Самый настоящий FP64 для ядерных расчетов? Анонс AMD Instinct MI430X

Время на прочтение5 мин
Охват и читатели16K

На майском HPC User Forum в Остине AMD рассказали о MI430X — ускорителе серии MI400, который позиционируется как инструмент для научных вычислений. Пока индустрия увлечена инференсом и считает токены в секунду на FP4, AMD напомнила, что CFD-код (Computational Fluid Dynamics) не интересует, насколько быстро чип умножает восьмибитные числа.

Привет, Хабр! Меня зовут Сергей Ковалёв, я менеджер выделенных серверов в Selectel. В этой статье мы мысленно «разберем» MI430X и обсудим, насколько новинка подходит для «ядерных расчетов» и машинного обучения. Подробности под катом!

Узнать подробности

Ближайшие события

Калькулятор VRAM для локальных LLM: Какие модели ИИ запустятся у вас на компьютере?

Уровень сложностиСредний
Время на прочтение9 мин
Охват и читатели17K

Когда я начал ковыряться с локальными LLM, главная боль была не в установке моделей, а в понимании, что вообще влезет в моё железо. Документация Hugging Face говорит “Llama 3.1 8B” — что это значит для моей видеокарты с 16 GB? А если хочу 32k контекст? А с Q4_K_M? Несколько недель назад мне попался open-source калькулятор whatmodelscanirun.ru. Прогнал его на трёх своих сетапах (4060 Ti, 3090, M2 Pro), сравнил предсказания с реальными запусками через llama.cpp и разобрался, как работает математика внутри. Спойлер: алгоритм правильный, но систематически переоценивает скорость на 15-25%.

Читать далее

Зачем AMD это сделали? Instinct MI350P на 144 ГБ

Время на прочтение4 мин
Охват и читатели13K

Актуальное на сегодняшний день поколение серверных ускорителей AMD — это MI350X и MI355X на архитектуре CDNA 4. Это уже серьезные машины для обучения и инференса больших моделей — с соответствующей ценой и требованиями к электроснабжению и охлаждению.

Несколько дней назад AMD анонсировали GPU Instinct MI350P — первую с 2022 года PCIe-карту серии Instinct, которая устанавливается в любой сервер с поддержкой двухслотовых GPU с воздушным охлаждением. Удобно и универсально, новинку точно стоит рассмотреть подробнее.

Читать далее

Обзор серверного ускорителя NVIDIA Tesla V100 16 Gb в корпусе от RTX 4090: Часть 2 — Тестирование в бенчмарках и играх

Уровень сложностиПростой
Время на прочтение9 мин
Охват и читатели15K

Обзор серверного ускорителя NVIDIA Tesla V100 16 Gb в корпусе от RTX 4090: Часть 2 — Тестирование в бенчмарках и играх

Читать далее

SpaceX собирается выпускать собственные GPU

Время на прочтение4 мин
Охват и читатели12K

Нет, не для того, чтобы вытеснить с рынка NVIDIA, хотя в перспективе и такое возможно. Как бы то ни было, компания SpaceX неожиданно раскрыла планы по созданию собственных графических процессоров. Пока речь идет только о планах по выпуску продукции под собственные нужды (да, в космосе тоже нужны GPU). Посмотрим, что и зачем планирует выпускать корпорация Илона Маска.

Читать далее

Мы уткнулись в потолок. Почему видеокарты перестали быстро расти — и что с этим делать

Уровень сложностиСредний
Время на прочтение4 мин
Охват и читатели12K

H100 стоит $30 000 и потребляет 700 Вт. RTX 5090 — $2 000 (де-факто больше) и 575 Вт. Прирост производительности между поколениями сжался с 80% до 15–20%. Разбираемся, почему это структурная проблема и что индустрия делает, чтобы с ней жить.

Читать далее

Обзор серверного ускорителя NVIDIA Tesla V100 16 Gb в корпусе от RTX 4090: Часть 1 — Внешний вид, установка и настройка

Уровень сложностиПростой
Время на прочтение6 мин
Охват и читатели16K

Обзор серверного ускорителя NVIDIA Tesla V100 16 Gb в корпусе от RTX 4090: Часть 1 - Внешний вид, установка и настройка

Читать далее

Новый GPU в противовес NVIDIA? Bolt Graphics Zeus

Время на прочтение6 мин
Охват и читатели12K

22 апреля 2026 года Bolt Graphics объявила об успешном финальном этапе проектирования тестового чипа Zeus на производственных мощностях TSMC. Напомню, это стартап из Калифорнии, основанный в 2020 году. Создатель компании до текущей деятельности занимался проектированием дата-центров и облачной инфраструктуры, но впоследствии переключился на создание GPU для рендеринга.

Что это, значимая новость для индустрии или очередной «прожект»? Новые GPU, имена и конкуренция мэтрам — это всегда хорошо для конечного клиента и двигает рынок вперед. Рассмотрим стадию создания продукта, его технические характеристики и место под солнцем в новостной статье.

Читать далее
1
23 ...