Как стать автором
Поиск
Написать публикацию
Обновить
615.05
BotHub
Агрегатор нейросетей: ChatGPT, Claude, Midjourney

Видеокарты для нейросетей: две RTX 5060 Ti 16GB или одна RTX 3090 24GB? Тест LLM‑инференса

Уровень сложностиПростой
Время на прочтение11 мин
Количество просмотров16K
Автор оригинала: Аллан Витт

Мечтаете запустить нейросеть на компьютере и анализировать целые книги или сложные документы? Тогда объём VRAM и поддержка длинных контекстов — ваши главные приоритеты.

С появлением RTX 5060 Ti 16GB открылась интригующая возможность — собрать систему с двумя такими картами за 950 $, получив целых 32 ГБ VRAM! Но как этот дуал покажет себя против проверенной временем б/у RTX 3090 (~900 $), с её внушительными 24 ГБ и легендарной пропускной способностью?

Я провёл тесты на реальных моделях (Qwen3 30B/32B), чтобы выяснить, какую видеокарту выбрать для нейросети в 2025 году, если ваша цель — запустить LLM на компьютере с максимальной отдачей, особенно для длинных контекстов.


Мир локального инференса больших языковых моделей (LLM) стремительно меняется. Для нас, энтузиастов, которые любят собирать и настраивать свои собственные системы, поиск идеального баланса между видеопамятью (VRAM), производительностью и ценой — это настоящий вызов, который никогда не теряет актуальности. С появлением таких карт, как NVIDIA RTX 5060 Ti с 16 ГБ памяти, открываются новые горизонты.

Особенно меня заинтриговала возможность конфигурации с двумя картами RTX 5060 Ti 16GB. Как она покажет себя в сравнении с одним из ветеранов рынка подержанных видеокарт — могучей RTX 3090? Особенно оглядываясь на то, что мы стремимся сэкономить, но всё же предпочитаем значительный объём видеопамяти. Я решил проверить на практике, и вот что мне удалось выяснить.

Сравнение характеристик и цен

К июню 2025 года рынок предлагает немало интересных вариантов. Подержанную RTX 3090 с внушительными 24 ГБ видеопамяти можно приобрести за 850–900 $. С другой стороны, покупка двух новых RTX 5060 Ti 16GB обойдётся примерно в 950 $. RTX 5060 Ti оснащена 16 ГБ памяти GDDR7, 4608 ядрами CUDA, пропускной способностью 448 ГБ/с и энергопотреблением 180 Вт, а также использует интерфейс PCIe 5.0 x8. Такая конфигурация позволяет уложиться менее чем в тысячу долларов за систему на базе двух видеокарт.

Сравним основные характеристики:

Характеристика

Одна RTX 3090 (подержанная)

Две RTX 5060 Ti 16GB (гипотетически)

Конфигурация GPU

1 × NVIDIA RTX 3090

2 × NVIDIA RTX 5060 Ti

Общий объём VRAM

24 ГБайт GDDR6X

32 ГБайт (16 ГБайт на карту) GDDR7

Пропускная способность памяти

936 ГБайт/с

448 ГБайт/s

Общее количество ядер CUDA

10 496

4608

Суммарный TDP

~350 Вт

~360 Вт (180 Вт на карту)

Интерфейс

PCIe 4.0 × 16

PCIe 5.0 × 8

Ориентировочная стоимость, всего

850–900 $ (подержанная)

950 $ (новые)

Первое, что бросается в глаза, — это преимущество в видеопамяти у связки из двух RTX 5060 Ti: целых 32 ГБ. Однако RTX 3090 отвечает более чем двукратным преимуществом в пропускной способности памяти на одной карте. Такое соотношение предвещает интересный компромисс производительности.

Сборная система для тестирования и методология

Чтобы разобраться в этом вопросе, я провёл серию тестов на системе под управлением Ubuntu 22.04 LTS с драйвером Nvidia версии 575.57.08. Для выполнения ИИ‑генераций я использовал сервер llama.cpp с интерфейсом OpenWebUI. Основное внимание было уделено двум динамическим моделям Unsloth, с 4-битной квантизацией в формате GGUF:

  • Qwen3–30B‑A3B-128K‑UD‑Q4_K_XL: многоэкспертная нейросеть, которая обычно менее требовательна к пропускной способности памяти, несмотря на свой размер.

  • Qwen3–32B‑UD‑Q4_K_XL: плотная модель, которая, как правило, гораздо интенсивнее нагружает память при генерации токенов.

Моя цель заключалась в замере скорости обработки запросов (токены в секунду), а ещё важнее — скорости генерации токенов при различных длинах контекста.

Локальные модели хороши для экспериментов, но доступ к мощным облачным нейросетям вроде Gemini 2.5 Pro, ChatGPT o3, Claude 4 или Midjourney по‑прежнему часто необходим. А возиться с VPN и десятком подписок — неудобно. На BotHub все топовые нейросети доступны в едином интерфейсе и с оплатой только за использование (pay as you go). Регистрируйся по реферальной ссылке и получи 100 000 токенов для теста любых моделей!

RTX 5060 Ti — недостающее звено между бюджетом и VRAM?

Главное преимущество тандема из двух RTX 5060 Ti — это его внушительный объём видеопамяти в 32 ГБ. Он не только позволяет загружать более крупные модели, но и увеличивает длину контекста, а также допускает более высокую точность квантизации.

Например, при наличии 32 ГБ памяти модель Qwen с 30 млрд параметров, такая как Qwen3 30B A3B, может работать с квантизацией в 6 бит (потребуется около 25 ГБ памяти для хранения весов), оставляя достаточно ресурсов для контекста. Для сравнения, RTX 3090 с 24 ГБ в подобных условиях столкнётся с трудностями, вероятно ограничившись квантизацией в 5 бит (примерно 21 ГБ для весов), что оставляет меньше места для длинных контекстов.

В моих тестах с моделями, квантизированными до 4 бит, конфигурация с двумя RTX 5060 Ti 16GB продемонстрировала отличную способность обрабатывать длинные контексты. Например, с моделью Qwen3 30B A3B мне удалось достичь максимального размера контекста, равного примерно 44 000 токенов, и при этом получить приемлемый ответ.

Вот краткий обзор производительности...

Производительность двух RTX 5060 Ti 16GB (llama.cpp, Ubuntu 22.04 LTS, OpenWebUI)

Модель

Длина контекста (токены)

Длительность обработки промта перед началом вывода (с)

Скорость обработки промта перед началом вывода (токены/с)

Скорость вывода ответа (токены/с)

Qwen3 30B A3B

~1 600

1,15

1422,67

80,83

~14 000

17,74

797,23

44,94

~32 000

70,19

459,63

26,04

~44 000

124,38

357,51

20,94

Qwen3 32B

~1 600

2,56

642,11

17,88

~10 000

28,81

378,24

13,15

~12 000

34,30

358,44

12,89

~14 000

46,30

320,04

12,56

~18 000

62,84

288,98

12,39

Скорости генерации токенов вполне достойные, особенно если учитывать ценовую категорию и предложенный объём видеопамяти. Возможность работать с 44-тысячным контекстом на многоэкспертной модели с 30 млрд параметров — это большое достижение для задач, требующих глубокого анализа больших документов.

RTX 3090 с 24 ГБ памяти

RTX 3090 остаётся замечательным выбором даже в качестве подержанного устройства. Её главное преимущество — это невероятная пропускная способность видеопамяти в 936 ГБ/с, которая напрямую влияет на скорость передачи данных к ядрам GPU во время генерации токенов. Данная характеристика особенно важна для обеспечения отзывчивости языка модели в реальном времени. Хотя объём её видеопамяти, 24 ГБ, ниже, чем у двух RTX 5060 Ti, его всё же достаточно для многих крупных моделей, особенно с квантизацией до 4 бит.

В ходе моих тестов RTX 3090 смогла обработать максимум 32 000 токенов на модели Qwen3 30B A3B, что является внушительным показателем, хотя и уступает 44 000 токенов у двойной 5060 Ti.

Вот показатели, которые удалось зафиксировать...

Производительность RTX 3090 (llama.cpp, Ubuntu 22.04 LTS, OpenWebUI)

Модель

Длина контекста (токены)

Длительность обработки промта перед началом вывода (с)

Скорость обработки промта перед началом вывода (токены/с)

Скорость вывода ответа (токены/с)

Qwen3 30B A3B

~1 600

0,90

1818,64

104,52

~14 000

11,64

1214,24

58,64

~32 000

46,52

692,22

28,01

Qwen3–32B

~1 600

1,62

1012,93

30,75

~10 000

16,88

645,58

24,52

Как и ожидалось, RTX 3090 показывает свою мощь благодаря высокой пропускной способности памяти, особенно в задачах с плотной моделью Qwen3 32B, где скорость генерации токенов заметно выше.

Лицом к лицу: анализ производительности

Сравнение двух конфигураций чётко показывает компромисс: RTX 3090 неизменно быстрее, если говорить о сырой скорости генерации токенов. При использовании плотной модели Qwen3–32B‑UD‑Q4_K_XL RTX 3090 опережала пару RTX 5060 Ti примерно на 70–85% по скорости генерации токенов при всех протестированных длинах контекста.

Например, на контексте из ~1600 токенов RTX 3090 выдавала 30,75 токена в секунду, тогда как пара 5060 Ti обеспечивала лишь 17,88 токена в секунду. Этот разрыв в скорости ощутим, если ваши рабочие задачи связаны с моделями, интенсивно нагружающими пропускную способность памяти.

Однако ситуация становится менее однозначной, когда речь заходит о многоэкспертной модели, Qwen3 30B A3B. Здесь разница в скорости генерации токенов оказалась менее значительной — RTX 3090 была быстрее примерно на 29–30% на средних длинах контекста (например, 1600 и 14 000 токенов). Это объясняется характеристиками многоэкспертных моделей, которые не задействуют все свои параметры при генерации каждого токена, что снижает нагрузку на пропускную способность памяти по сравнению с плотными моделями.

Меня действительно удивила производительность при обработке очень длинных окон контекста в многоэкспертной модели. На контексте из 32 000 токенов с Qwen3 30B A3B связка из двух RTX 5060 Ti 16GB отставала от RTX 3090 всего на 7% по скорости генерации токенов (26,04 т/с против 28,01 т/с).

Результат впечатляет, учитывая, что пропускная способность памяти одной RTX 3090 почти вдвое выше, чем у одной RTX 5060 Ti. Он может свидетельствовать о том, что при экстрадлинных контекстах начинают играть роль другие факторы; либо llama.cpp эффективно распределяет память между видеокартами, сглаживая различия, когда её объём достаточен.

Разумеется, связка RTX 5060 Ti предоставляет больше видеопамяти (32 против 24 ГБ), что позволяет ей справляться с контекстом длиной 44 000 токенов на модели Qwen3 30B A3B. В то время как RTX 3090 в моих тестах остановилась на 32 000 токенов. Эта дополнительная ёмкость становится ключевым преимуществом, если ваша работа связана с необходимостью обработки чрезвычайно длинных запросов или документов.

ExLlamaV3 + TabbyAPI

Завершив изначальные тесты с llama.cpp, я решил повторно проверить обе конфигурации, применив ExLlamaV3 с TabbyAPI — более лёгкое и быстрое решение, известное своей высокой эффективностью в локальных сценариях инференса. Моей целью было выяснить, сколько производительности можно выжать из систем при оптимизированной среде выполнения. Я использовал модель Qwen3 30B A3B, квантизированную до 5 бит (примерно 20 ГБ), с упором на два размера контекста: 32 000 и 44 000 токенов. И RTX 3090, и связка из двух RTX 5060 Ti 16GB смогли комфортно разместить модель в пределах своей VRAM, но разница в скорости оказалась весьма показательна.

Вот полученные результаты:

Конфигурация

Длина контекста

Скорость заполнения (prefill speed, токены/с)

Скорость вывода ответа (токены/с)

Одна RTX 3090 (24 Гбайт)

~32 000

~1445

~51

~44 000

~1305

~47

Две RTX 5060 Ti (по 16 Гбайт)

~32 000

~1037

~44

~44 000

~929

~38

Очевидно, что ExLlamaV3 обеспечивает более быструю работу по сравнению с llama.cpp, благодаря меньшим издержкам и продуманным оптимизационным путям. RTX 3090 сохраняет лидерство в абсолютной пропускной способности — это особенно заметно при скорости заполнения и генерации. Однако связка из двух RTX 5060 Ti несильно отстаёт, особенно если учесть её большое преимущество в 32 ГБ VRAM, что позволяет ей уверенно справляться с задачами даже при обработке контекста на 44 000 токенов.

Вкратце: если вы работаете с большими контекстами LLM, требуя как скорости, так и гибкости, ExLlamaV3 + TabbyAPI сокращает разрыв между этими двумя конфигурациями. В данном тандеме вариант с двумя картами способен значительно превзойти все ожидания при грамотной оптимизации.

Практические аспекты системы с двумя RTX 5060 Ti

Выбор конфигурации с двумя RTX 5060 Ti 16GB не просто покупка двух видеокарт — нужно заранее продумать совместимость системы. Материнской плате следует иметь как минимум два слота PCIe x8 или x16, причём желательно располагать их с достаточным расстоянием между собой, чтобы обеспечить правильное охлаждение, особенно если карты используют открытые кулеры вместо турбин.

Что касается энергопотребления, порог тепловыделения видеокарт составляет около 360 Вт. Если учесть остальную часть системы, блок питания на 800 Вт станет разумным выбором для стабильной работы с запасом мощности. Важную роль играет грамотная организация воздушного потока в корпусе, чтобы избежать теплового троттлинга.

С программной стороны llama.cpp достаточно хорошо поддерживает мульти‑GPU‑конфигурации. Однако, как и в случае любых многокартных систем, стоит быть готовым к редким нюансам в работе драйверов или необходимости дополнительной настройки.

Какой вариант видеокарт лучше для локальных LLM?

Итак, какой из вариантов станет лучшим выбором для энтузиаста локальных LLM в июне 2025 года? За примерно 950 $ можно собрать систему из двух RTX 5060 Ti 16GB, тогда как подержанная RTX 3090 обойдётся в 850–900 $. Разница в цене не слишком большая.

Если ваша главная цель — максимальная скорость генерации токенов для моделей, которые помещаются в 24 ГБ, и если вы часто работаете с плотными моделями, RTX 3090 остаётся более предпочтительным вариантом. Эта однокартная конфигурация проста в установке и демонстрирует выдающиеся показатели производительности благодаря высокой пропускной способности памяти.

Однако если ваши задачи связаны с большими окнами контекста или если вы хотите использовать модели с более высокой точностью квантизации (например, 6 бит для моделей с 30 млрд параметров), конфигурация с двумя RTX 5060 Ti 16GB становится очень привлекательным решением.

Преимущество в объёме VRAM в 32 ГБ — это весомый аргумент: производительность связки, особенно при работе с многоэкспертными моделями и длинными контекстами, оказывается более чем удовлетворительной. Такой вариант не только предоставляет больше памяти, чем RTX 3090, но и показывает почти сопоставимые результаты в ряде сценариев. Потратить дополнительные 50–100 $ за такой объём памяти вполне оправданно.

В конечном итоге, как отмечают многие пользователи, выбор по большей части зависит от того, насколько часто вы планируете использовать большие контексты. Если ваша работа постоянно выводит потребность в VRAM на максимум, конфигурация с двумя RTX 5060 Ti 16GB предлагает путь, который RTX 3090 просто не в силах превзойти в плане чистой вместимости.

Пути для апгрейда и взгляд в будущее

Для тех, кто планирует постепенную модернизацию системы, начало с одной RTX 5060 Ti 16GB предоставляет гибкость: позже можно добавить вторую карту и фактически удвоить объём VRAM. Такой поэтапный подход может быть легче для бюджета. Если же у вас уже есть RTX 3090, но вы всё равно испытываете нехватку VRAM, можно при необходимости установить вторую карту RTX 3090 — конечно, если позволяет ваша система и финансы. Альтернативно можно взглянуть в сторону более производительных (и существенно более дорогих) видеокарт, таких как RTX 5090 или будущие поколения.

Рынок подержанных RTX 3090 продолжает демонстрировать тенденцию к снижению цен, что делает эти карты всё более привлекательными. Если цены упадут ещё сильнее, модель может стать достойной альтернативой новым конфигурациям на основе двух видеокарт. Вместе с тем RTX 5060 Ti, являясь более современной моделью в линейке 5000-й серии, вероятно, сохранит стабильную стоимость в ближайшее время, особенно если версия с 16 ГБ VRAM будет пользоваться высоким спросом среди пользователей LLM.

С моей точки зрения, конфигурация с двумя RTX 5060 Ti 16GB показала себя как удивительно мощный и универсальный вариант для запуска нейросетей на своём локальном компьютере. Яркое подтверждение тому, что креативные комбинации аппаратных решений могут пойти навстречу бюджету, при этом сохраняя интерес для технически подкованных энтузиастов. Вы получите достаточный запас VRAM, достойную производительность и возможность справляться с всё более крупными моделями и контекстами — выглядит невероятно перспективно, не так ли?


Аллан Витт

Cоучредитель и редактор Hardware Corner. «Компьютеры и интернет увлекли меня ещё в детстве. В 2011 году я начал обучение на IT‑специалиста в компании среднего бизнеса, параллельно с этим запустил свой блог. Мне действительно нравится писать о технологиях. После успешного завершения обучения я два года работал системным администратором в той же компании. В качестве подработки я занялся модернизацией готовых ПК и сборкой кастомных игровых систем в местном магазине электроники. Желание заниматься сборкой компьютеров на постоянной основе всё усиливалось, и теперь это моя основная работа»

Только зарегистрированные пользователи могут участвовать в опросе. Войдите, пожалуйста.
Что важнее для вас в видеокарте под локальные LLM?
19.19% Максимальная скорость генерации токенов (как у 3090)19
43.43% Больше VRAM любой ценой (32 ГБ+)43
16.16% Оптимальный баланс скорости и памяти16
13.13% Минимальная цена/ватт13
8.08% Простота установки (одна карта лучше)8
11.11% Возможность апгрейда (куплю одну 5060 Ti, потом добавлю вторую)11
6.06% Другое6
23.23% А какой был вопрос?23
Проголосовали 99 пользователей. Воздержались 28 пользователей.
Теги:
Хабы:
Всего голосов 30: ↑30 и ↓0+31
Комментарии40

Публикации

Информация

Сайт
bothub.chat
Дата регистрации
Дата основания
Численность
11–30 человек
Местоположение
Россия
Представитель
Greg Ewin