
Весной 2021 года NVIDIA представила новую линейку видеокарт RTX Ax000 и Ax0 на архитектуре Ampere, с тензорными ядрами третьего поколения. На тот момент в Selectel уже можно было арендовать выделенные и облачные серверы с GPU Tesla M60, T4, V100 и даже топовыми NVIDIA A100.
Поскольку мы стараемся предоставлять клиентам только актуальное железо с современными технологиями, решили, что пора обновить линейку видеокарт. Предлагать все анонсированные NVIDIA видеокарты нерационально как для нас, так и для клиентов. Под катом расскажу, как мы выбирали лучших из лучших и поделюсь результатами нашего бенчмарка на тестовой сборке.
Подход, с помощью которого мы в Selectel выбираем железо — видеокарты, процессоры и другие комплектующие, — довольно прост. Мы предполагаем, что клиент хочет решить свои бизнес-задачи эффективно и с минимальными затратами. Соответственно, отталкиваемся от следующей формулы:

По ней же мы выбирали лидеров среди новых видеокарт.
Какие видеокарты рассматривали
Сравнивали девять GPU: видеокарты RTX от А2000 до А6000, А10, А16, А30, А40 и A100 PCIe. A2000 вышла только летом этого года, но это не помешало рассмотреть характеристики чипа и протестировать образец.

Все участники тестирования — серверные видеокарты, десктопных GeForce RTX 3080 и 3090 в списке нет. Эти карты (а если быть точным, установка драйверов NVIDIA) запрещены к использованию в серверах в дата-центрах. Производитель строго следит за соблюдением ограничений: санкции за нарушение применяются не только к провайдеру, но и клиенту, который арендует сервер с десктопным железом или устанавливает на нем ПО NVIDIA.
Для оценки видеокарт мы отталкивались от нескольких характеристик, которые важны для решения задач, часто возникающих у клиентов. То есть смотрели на то, за что, вообще, берут эти GPU. Назначение ядер представлено в упрощенной форме, каждый тип влияет на производительность видеокарты.
Среди них:
- Число ядер CUDA (для тех, кто не знает, это условное обозначение скалярных вычислительных блоков в видеочипах NVIDIA). Чем больше ядер, тем лучше карта справляется с работой с графикой и вычислениями в целом.
- Число тензорных ядер, которые динамически оптимизируют вычисления и здорово справляются с нагрузками, характерными для работы с ИИ, перемножением матриц для обучения нейросетей и анализа данных.
- Число RT (Ray Tracing) ядер, которые обеспечивают высокую точность рендеринга.
К слову, NVIDIA не всегда указывает точное количество CUDA, RT и тензорных ядер. Для сравнения мы использовали данные сторонних источников.
- Объем памяти.
- Пропускная способность памяти. Эти два пункта логично влияют на производительность видеокарты.
- Поддержка виртуальных GPU VDI. Этот пункт важен, поскольку инфраструктуру виртуальных рабочих столов нередко используют наши клиенты.
- Энергопотребление. Это, скорее, пунктик для нас: для дата-центра этот показатель важен при выборе корпуса, питания для сервера и стойки.
Вот что получилось по цифрам:
| GPU | RTX A2000 | RTX A4000 | RTX A5000 | RTX A6000 | A10 | A16 | A30 | A40 | A100 PCIe |
| CUDA ядра | 3328 | 6144 | 8192 | 10752 | 9216* | 1280 x 4 | 3804* | 10752 | 6912* |
| Тензорные ядра | 104 | 192 | 256 | 336 | 288* | 40 x 4 | 224* | 336 | 432* |
| RT ядра | 26 | 48 | 64 | 84 | 72 | 10 x 4 | - | 84 | - |
| Объем памяти (ГБ) | 6 GDDR6 | 16 GDDR6 | 24 GDDR6 | 48 GDDR6 | 24 GDDR6 | 16 x 4 GDDR6 | 24 HBM2 | 48 GDDR6 ECC | 40 HBM2 |
| Пропускная способность памяти (Гб/c) | 288 | 448 | 768 | 768 | 600 | 200 x 4 | 933 | 696 | 1555 |
| Поддержка vGPU VDI | - | - | + | + | + | + | + | + | + |
| Максимальное энергопотребление (W) | 70 | 140 | 230 | 300 | 150 | 250 | 165 | 300 | 250 |
Данные не предоставляются NVIDIA, взяты из открытых сторонних источников (pny.eu, techpowerup.com).
Какие выводы можно сделать из этой таблички
Для линейки RTX Ax000 характеристики растут почти линейно с ростом индекса модели.
A16 — это четыре видеокарты в одной. NVIDIA позиционирует устройство как специальное решение для VDI.
A30, на первый взгляд, менее производительная, чем A10, однако тип памя��и HBM2 имеет большую пропускную способность. NVIDIA позиционирует A30 как решение для ИИ. По обоим устройствам компания не публикует данные по количеству тензорных и других ядер (характеристики получены из сторонних источников).
В сравнение с другими видеокартами в таблице, топовое решение A100 в форм-факторе PCIe имеет максимальную пропускную способность памяти и максимальное количество тензорных ядер, что ожидаемо. Очевидно, что основное назначение этой GPU — работа с искусственным интеллектом и сложными вычислениями. В линейке NVIDIA это самая производительная видеокарта на сегодняшний день, особенно версия с 80 ГБ памяти в форм-факторе SXM. Но последняя распаивается на плате, и из соображений унификации мы рассматривали только вариант в форм-факторе PCIe.

А сколько стоит
Следуя уже озвученной формуле по выбору комплектующих, рассмотрим цены. Сложно писать о них в 2021 году, который запомнился кризисом чипов и постоянными перебоями поставок.
Точных цифр не будет по двум причинам. Во-первых, это коммерческая тайна. Во-вторых, и это главное, с момента анонсирования карт весной цены успели измениться (и, уверен, продолжат меняться далее).
Будем использовать такой подход: примем за эталон GPU A5000 — его цена в сравнительной таблице будет равняться 1 «попугаю». Цены на остальные карты я представлю через отношение к цене A5000. A10 и A16 в близком ценовом диапазоне, поэтому «стоят» столько же.
| GPU | A2000 | A4000 | A5000 | A6000 | A10 | A16 | A30 | A40 | A100 |
| Цена | 0.2 | 0.5 | 1 | 2 | 1 | 1 | 1.6 | 1.7 | 3.3 |
На этом этапе соотношение цен и заявленных характеристик ожидаемо. Первый кандидат на добавление в линейку видеокарт Selectel, на роль младшей модели, – А2000. Также вызывает интерес паритет между A5000, A10 и A16.

Перейдем к тестированию производительности претендентов.
Тестирование видеокарт
Проводить тесты оборудования — обычная практика для Selectel. Мы используем большое количество железа в различных продуктах компании, поэтому тестируем его как на совместимость друг с другом и ПО, так и на производительность.
Для этого у нас есть своя «лаборатория» — Selectel Lab. Некоторое оборудование мы даже предоставляем клиентам для бесплатного тестирования в их проектах. Из свежих примеров: отдаем на тест настоящего монстра DGX A100 c 8 одноименными видеокартами. Подробней о его бенчмарке можно прочитать по ссылке.
Для тестирования новых видеокарт мы собрали тестовые серверы с двумя мощными процессорами от Intel и достаточным количеством оперативной памяти.

Характеристики следующие:
- 2 × Intel® Xeon® Gold 6240: 18 ядер с частотой 2.6 ГГц
- 192–384 ГБ DDR4;
- 240–480 ГБ SSD SATA;
- 1 × выбранный GPU
Бенчмарки, которые мы выбрали:
GeekBench 5 — общий тест, моделирующий выполнение задач и определяющий производительность GPU.
AI-benchmark — тест производительности, который замеряет скорость обучения и применения различных нейронных сетей на задачах распознавания и классификации.
V-Ray Benchmark — тест для проверки скорости рендеринга.
ffmpeg NVENC — тест на производительность при транскодинге видео.
Результаты тестирования представлены в таблице. Выделили лидеров по каждому пункту.
| Модель | RTX A2000 | RTX A4000 | RTX A5000 | A10 | A30 | A40 | A100 | |
| GeekBench 5 | OpenCL Compute Score | 81 638 | 137 850 | 182 930 | 167 215 | 122 106 | N/A | 170 137 |
| CUDA Compute Score | 87 283 | 144 283 | 197 025 | 172 765 | 134 492 | 221 139 | 213 899 | |
| AI-benchmark | Inference Score | 8 611 | 13 707 | 18 947 | 15 860 | 18 016 | 18 489 | 25 177 |
| Training Score | 9 127 | 14 123 | 19 183 | 16 279 | 19 385 | 19 265 | 23 775 | |
| AI-Score | 17 738 | 27 830 | 38 130 | 32 139 | 37 401 | 37 754 | 48 952 | |
| V-Ray | V-Ray Benchmark, vpaths | 721 | 1 317 | 1 742 | 1 193 | 897 | 1 738 | 1 539 |
| ffmpeg NVENC benchmark | fps | 172 | 173 | 175 | N/A | N/A | 157 | N/A |
| Время, с | 110,98 | 110,38 | 108,81 | N/A | N/A | 121,85 | N/A |
На время написания статьи видеокарт A16 и RTX A6000 на руках у нас не было, поэтому в таблицу они не вошли. Их бенчмарк планируется позже.
Лидеры бенчмарка

По результатам тестирования A5000 побеждает по соотношению цены и качества. Лучший результат в OpenCL Compute Score, незначительно уступает более дорогим A40 и A100 в CUDA Compute Score и подойдет для работы с графикой. Второе место в AI-benchmark после A100. Лидер в V-Ray тесте на скорость рендеринга, лидер в тесте на транскодинг. Поддерживает VDI. Безоговорочно наш вариант, если сопоставить �� таблицей цен.
A2000 — в пять раз дешевле A5000, при этом демонстрирует приемлемые результаты бенчмарка для базовой модели. Не поддерживает VDI, но подходит для работы с графикой и задач ИИ.
A4000 — «середнячок» по производительности между A2000 и A5000, не поддерживает VDI, но в остальном выдерживает критику по соотношению цены и результатов бенчмарков.
A100, как я уже писал, — безоговорочный лидер для работы с искусственным интеллектом, обучением моделей, инференсом, анализом данных и сложными вычислениями. Оптимален для инфраструктуры удаленных рабочих столов.
Остальные GPU при сравнении бенчмарков и цены показали меньшие результаты.
Финал
На пьедестале победителей (которые, кстати, уже можно заказать на сайте) — четыре видеокарты. Нашей формуле соответствуют RTX A2000, RTX A4000, RTX A5000 и A100.
Мы хотим предоставить клиентам свободу выбора: от недорогих серверов с одним GPU до кластеров с несколькими видеокартами на борту. Если нужен «крепкий» сервер для рендеринга, добавьте в него A2000 — выполнит работу на пять и не «съест» бюджет. А для амбициозных задач со сложными вычислениями, ИИ, крупными VDI-проектами есть сервер с восемью А100. Уже есть готовый конфиг. Несмотря на наш строгий отбор, мы готовы предоставить клиенту любую карту NVIDIA (кроме десктопных RTX 3080 и 3090, конечно).
Выбранные карты в наличии на складе, а это значит, что кастомный сервер с ними вы получите в течение пяти дней. Если подойдет уже собранный сервер с GPU, он будет готов для работы уже через 2-60 минут.

