RTX 4090 или L40S: оптимальный GPU среднего уровня в 2025 году / Хабр

Привет! На связи команда mClouds. В 2025 году разработчики AI-проектов сталкиваются с непростым выбором: использовать топовую потребительскую видеокарту RTX 4090 или профессиональное решение L40S. Обе карты построены на архитектуре Ada Lovelace, используют один и тот же графический чип AD102 и имеют похожую вычислительную мощность, но L40S предлагает вдвое больше памяти: 48 ГБ против 24 ГБ у RTX 4090. При этом разница в цене может отличаться в два раза.

В этой статье мы детально сравним технические характеристики, производительность и практическую применимость этих карт для различных AI-задач.

Что под капотом: сколько ядер, памяти и какая производительность

RTX 4090 и L40S построены на одном графическом чипе AD102, но имеют разную конфигурацию. L40S получила больше вычислительной мощности: 18,176 CUDA-ядра против 16,384 у RTX 4090. Это дает примерно 11% преимущества в вычислительной производительности. Еще заметнее разница в количестве тензорных ядер: 568 у L40S против 512 у RTX 4090. Именно эти ядра отвечают за ускорение AI-вычислений, поэтому разница в 11% здесь особенно важна.

Самое существенное отличие — объем видеопамяти. L40S оснащена 48 ГБ памяти GDDR6, тогда как RTX 4090 имеет 24 ГБ GDDR6X. Объем памяти критически важен при работе с крупными AI-моделями. С L40S вы сможете работать с моделями вдвое больше без необходимости разбивать их на части или применять сложные техники оптимизации.

Хотя у L40S вдвое больше памяти, ее пропускная способность ниже: 864 ГБ/с против 1,008 ГБ/с у RTX 4090. Это связано с разными типами памяти. GDDR6X в RTX 4090 быстрее, но потребляет больше энергии и выделяет больше тепла по сравнению с GDDR6 в L40S. Для некоторых задач, особенно при инференсе небольших моделей, эта разница в скорости может быть ощутима.

Если пересчитать эффективность в TFLOPS на ватт, L40S выигрывает с большим отрывом: 0,305 TFLOPS/Вт против 0,184 TFLOPS/Вт у RTX 4090. Это почти в 1,7 раза эффективнее.

Все эти характеристики напрямую влияют на реальную производительность в AI-задачах. Для небольших моделей, которые помещаются в 24 ГБ памяти, разница может быть не так заметна. Но при работе с крупными генеративными моделями или при обучении своих моделей объем памяти становится решающим фактором.

Как обе карты справляются с обучением нейросетей

Команда AIME провела тесты обучения модели BERT Large на PyTorch 2.5.1 с включенным режимом компиляции. По результатам этих тестов L40S показала производительность на 10–15% выше, чем RTX 4090. Это преимущество обусловлено большим количеством CUDA-ядер (18,176 против 16,384) и тензорных ядер (568 против 512).

Режим компиляции в PyTorch 2.5.1 играет критическую роль в раскрытии полного потенциала обеих карт. Он может повысить производительность в 1,5–4 раза, особенно на высокопроизводительных ускорителях. В некоторых случаях, например при работе с моделью BERT на GPU архитектуры Hopper, прирост может достигать четырехкратного увеличения.

Использование автоматической смешанной точности (AMP) существенно улучшает производительность обеих карт. Переход с fp32 на AMP может увеличить скорость обучения более чем в два раза на практически всех моделях GPU.

Преимущество L40S особенно заметно при обучении крупных моделей. RTX 4090 с ее 24 ГБ видеопамяти может потребоваться оптимизация памяти, например с помощью gradient checkpointing или ZeRO, иначе модели не поместятся в память одного GPU. В ситуации с L40S благодаря 48 ГБ позволяет обучать модели напрямую без этих компромиссов.

При выборе между RTX 4090 и L40S для обучения нейросетей ключевым фактором становится размер модели и требования к памяти. Для серьезных исследовательских проектов с крупными моделями L40S предлагает более высокую производительность и гибкость. Для небольших экспериментов и моделей, которые комфортно помещаются в 24 ГБ памяти, RTX 4090 может быть более практичным выбором с точки зрения соотношения цены и возможностей.

Насколько быстро работает инференс на этих картах

Согласно тестам разработчиков GPU-бенчмарков на GitHub, RTX 4090 может показывать даже лучшие результаты, чем L40S при инференсе небольших языковых моделей до 13B параметров. Это объясняется более высокой пропускной способностью памяти RTX 4090 (1,008 ГБ/с против 864 ГБ/с у L40S). В тестах генерации токенов для моделей размером до 13B RTX 4090 демонстрирует на 5–10% более высокую скорость. Но только при инференсе, при обучении картина меняется, ввиду в два раза бОльшего объема памяти у L40S.

Однако ситуация меняется при работе с более крупными моделями. Для нейросетей размером 70B и выше L40S с ее 48 ГБ памяти становится единственным жизнеспособным вариантом из этих двух. 24 ГБ RTX 4090 оказывается недостаточно для загрузки таких моделей целиком, даже с использованием 4-битной квантизации.

При работе с генеративными моделями, такими как Stable Diffusion, L40S также демонстрирует преимущество, особенно при генерации изображений высокого разрешения (более 1024 × 1024), где требуется больший объем памяти для хранения промежуточных результатов. L40S показывает в 1,2 раза лучшую производительность в задачах генеративного AI по сравнению с A100, но уступает примерно на столько же H100.

В задачах компьютерного зрения, особенно при обработке видео высокого разрешения или множественном инференсе на одной карте, L40S также имеет преимущество благодаря большему объему памяти, что позволяет обрабатывать больше кадров или запускать несколько моделей параллельно. Согласно тестам NVIDIA, L40S обрабатывает 23,025 изображения в секунду при использовании ResNet-50v1.5 с размером батча 8 и 29,073 изображения с размером батча 32.

При выборе между RTX 4090 и L40S для задач инференса следует учитывать размер модели, требования к пропускной способности и сценарий использования. Для небольших и средних моделей, где важна скорость обработки, разница практически незаметна. Для более крупных моделей L40S будет являтся лучшим, а части почти единственным выбором, учитывая стоимость аренды, сравнимую с RTX 4090.

Серверное использование: что выбрать для работы 24/7

При использовании в облачной инфраструктуре обе карты имеют свои особенности эксплуатации. L40S потребляет 300 Вт энергии, что на 33% меньше по сравнению с 450 Вт у RTX 4090. Это не только экономия на электричестве, но и меньшая нагрузка на системы охлаждения, что критично для непрерывной работы.

L40S также предлагает поддержку дополнительных технологий для облачных вычислений, включая time-slicing для Kubernetes, что позволяет эффективно распределять вычислительные ресурсы между контейнерами в облачной инфраструктуре. Это делает карту особенно привлекательной для современных микросервисных архитектур.

Одно из главных преимуществ L40S — поддержка технологии виртуализации GPU (vGPU). Она позволяет разделять ресурсы одной физической карты между несколькими виртуальными машинами, что особенно ценно в многопользовательских средах. RTX 4090 такой возможности не предоставляет.

Технология vGPU помогает серьезно сэкономить на оборудовании для проектирования и разработки. Например, при работе с ресурсоемкими приложениями, такими как Revit, можно разделить память L40S на несколько виртуальных рабочих столов. Это значительно снижает стоимость оборудования на одну рабочую станцию, поскольку несколько специалистов может одновременно использовать мощности одной карты. В итоге получаем хорошую производительность на одну рабочую станцию, при отличной экономике. Это важно для крупных графических моделей, для большинства же хватит и обычных карт уровня A16.

В отличие от RTX 4090, у L40S пассивное охлаждение, что снижает количество движущихся частей, которые могут выйти из строя, и повышает общую надежность системы. RTX 4090 с активной системой охлаждения и трехслотовым дизайном не оптимизирована для плотной установки в серверные стойки. Прямо скажем, эти карты вообще не для использования в ЦОДах.

Сравниваем цены аренды RTX 4090 против L40S

Если говорить о покупке оборудования, разница между потребительскими и профессиональными видеокартами остается значительной. В 2025 году розничная цена RTX 4090 в России составляет от 200 000 до 250 000 рублей. Стоимость L40S еще выше — от 800 000 до 1 100 000 рублей только за видеокарту, без учета стоимости серверной платформы, необходимой для ее установки.

Ситуация с арендой облачных GPU решений сложилась иначе. Исторически разница в стоимости серверов с игровыми GPU, такими как RTX 4090, и профессиональными картами, как L40S или A100, могла достигать двух и более раз. На момент публикации статьи мы в mClouds.ru предлагаем серверы с L40S по ценам, сравнимым с арендой серверов с RTX 4090. К примеру конфигурации с 16 VCPU/64 DDR5 RAM/NVMe 500GB/48GB L40S - опустилась до 56 900р/мес. Пока такие конфигурации еще доступны к заказу до момента исчерпания свободных карт.

Итак, какую видеокарту взять

Для индивидуальных разработчиков, исследователей и небольших стартапов, работающих с моделями, которые помещаются в 24 ГБ памяти, RTX 4090 предлагает отличное соотношение цены и производительности. Она подходит для экспериментов с моделями среднего размера (до 13B параметров с квантизацией), обучения и fine-tuning небольших моделей, задач компьютерного зрения и обработки изображений среднего разрешения, а также разработки и тестирования, где не требуется непрерывная работа 24/7.

L40S — более предпочтительный выбор для профессиональных и корпоративных задач. Ее возможности особенно раскрываются при работе с крупными языковыми моделями, содержащими более 13B параметров, где дополнительная память становится критически важным фактором.

В серверных решениях, работающих 24/7, L40S с пассивным охлаждением снижает риск сбоев из-за отсутствия движущихся частей. Технология vGPU позволяет разделить ресурсы одной L40S между несколькими виртуальными машинами, сокращая затраты на оборудование в 2–4 раза при работе с Revit, AutoCAD, 3ds Max и другими профессиональными программами.

При сопоставимой стоимости аренды L40S превосходит RTX 4090 по нескольким параметрам:

Объем видеопамяти: 48 ГБ против 24 ГБ. Позволяет загружать модели размером до 70B параметров с квантизацией, в то время как RTX 4090 ограничена моделями до 13B параметров.
Больше вычислительных ядер: 18,176 CUDA-ядра и 568 тензорных ядер против 16,384 и 512 у RTX 4090. Это дает больше вычислительной мощности и производительности в AI-задачах.
Поддержка виртуализации GPU (vGPU). RTX 4090 такой возможности не предоставляет, что ограничивает ее использование в графических VDI применениях.
Пассивное охлаждение вместо активной трехслотовой системы охлаждения у RTX 4090. Снижает вероятность отказа при непрерывной работе.
Поддержка ECC-памяти.
Производительность FP32: 91,6 TFLOPS против 82,58 TFLOPS у RTX 4090. Разница в 10,9% в пользу L40S.

В mClouds мы предоставляем доступ к серверам с L40S для различных проектов, как для AI, так и для графических применений. Считаем что эта карта наиболее оптимальна для применения в задачах, требующих 24GB и больше памяти, а также хорошей производительности, учитывая сопоставимую цену с арендой карт RTX 4090.

А вы какие карты используете в облаках? Делитесь в комментариях, будем рады почитать прикладной опыт с GPU.

Только зарегистрированные пользователи могут участвовать в опросе. Войдите, пожалуйста.

50%Нет, дорого14

10.71%Мне и более простых карт хватает!3

21.43%48GB маловато, надо от 80GB хотя-бы!6

17.86%Я вообще только поиграть!5

Проголосовали 28 пользователей. Воздержались 7 пользователей.

RTX 4090 или L40S: оптимальный GPU среднего уровня в 2025 году

Что под капотом: сколько ядер, памяти и какая производительность

Как обе карты справляются с обучением нейросетей

Насколько быстро работает инференс на этих картах

Серверное использование: что выбрать для работы 24/7

Сравниваем цены аренды RTX 4090 против L40S

Итак, какую видеокарту взять

Публикации

Информация