120 миллиардов параметров, контекст 256K токенов, агентное поведение — и всё это на одной видеокарте. Мы подключили Nemotron 3 Super к Luxms BI и неделю тестировали на реальных аналитических задачах. В этой статье — что получилось, где модель справляется, а где пока нет.

Одна видеокарта это принципиально другая экономика владения. Кластер из 8 карт это капитальные затраты, инженерная команда для обслуживания, электричество, охлаждение и площадь в серверной. Одна RTX PRO 6000 это единица оборудования, которая встаёт в стандартную рабочую станцию. Разница в совокупной стоимости владения (TCO) на порядок.

11 марта 2026 года NVIDIA выпустила Nemotron 3 Super – MoE-модель на 120 миллиардов параметров и с 12 миллиардами активных параметров. 

Мы решили проверить ее на реальных аналитических задачах – быстро, локально и без кластера. Мы развернули Nemotron 3 на одной RTX PRO 6000 (96 ГБ), подключили ее к Luxms BI и неделю тестировали в сценариях, близких к реальной работе с данными.

Luxms BI - платформа бизнес-аналитики, которая позволяет оптимизировать процессы, расходы, а также упростить и масштабировать работу с аналитикой в компании за счет self-service подхода. Это универсальная платформа для работы с искусственным интеллектом.

Меня зовут Саид Мухамад, я занимаюсь ИИ в Luxms. В этой статье расскажу не только про результаты, но и про практику – где модель действительно работает, а где упирается в ограничения.

Главный вопрос, на который мы хотели ответить – можно ли сегодня решать реальные аналитические задачи на одной GPU там, где обычно требуется кластер.

Спойлер: можно. Но не всегда и не без компромиссов.

Контекст

Сейчас на рынке формируется целый класс ~120B MoE-моделей, которые обещают качество, близкое к передовым (например, GLM или Kimi), при кратно меньших вычислительных затратах – GPT-OSS-120B, Qwen3.5-122B, и теперь Nemotron 3 Super. Но есть нюансы:

  • Для Qwen3.5-122B официальный референсный сетап на 262K контекста — 8 GPU [1]

  • GPT-OSS-120B работает на одной RTX PRO 6000, но на длинных контекстах (от 128K токенов) качество резко падает.

А Nemotron 3 Super:

  • помещается в одну GPU с 96 ГБ

  • стабильно держит контекст 64K–256K

  • и именно в этом диапазоне контекста она выглядит сильнее GPT-OSS-120B

Инференс это режим, в котором модель генерирует ответы, в отличие от режима обучения, где она обновляет свои параметры

Для нас одна GPU – это быстрые итерации: развернул, прогнал тесты, свернул. Никакой координации кластера, никаких накладных расходов на межузловое взаимодействие. Именно поэтому мы решили присмотреться к ней всерьёз. (Плюс так дешевле)

Что говорят бенчмарки

Прежде чем перейти к нашему собственному опыту, посмотрим на результаты от комьюнити. Основное сравнение - с GPT-OSS-120B.

*Для Qwen3.5-122B официальный референсный сетап на 262K контекста предполагает 8 GPU
*Для Qwen3.5-122B официальный референсный сетап на 262K контекста предполагает 8 GPU

Длинный контекст – где начинается расхождение

Самое интересное проявляется в RULER – тесте на длинный контекст. При 256K токенов Nemotron набирает 96,3%, а GPT-OSS-120B проседает до 52,3%. На 512K разрыв увеличивается ещё сильнее – 95,7% против 46,7%. А при 1M токенов GPT-OSS фактически перестает понимать задачу – 22,3%.

Разница носит не количественный, а качественный характер. Для задач, связанных с объёмными схемами данных, рассуждением по множеству документов или длинной историей диалога – а именно так выглядит большинство реальных BI-сценариев, это критически важно.

По остальным метрикам в сравнении с GPT-OSS-120B: Nemotron убедительно выигрывает в SWE-Bench (60,5% против 41,9%), идёт вровень по использованию инструментов (TauBench) и поочерёдно лидирует в математическом рассуждении (GPT-OSS выходит вперед в AIME, Nemotron в HMMT). По следованию инструкциям – на несколько пунктов впереди. Единственная область, где GPT-OSS лидирует явно – LiveCodeBench (88,0% против 81,2%).

 Qwen 3.5-122B набирает больше по ряду бенчмарков — MMLU-Pro, GPQA, SWE-Bench, TauBench.

Наш сетап на одной карте

Мы использовали:

  • RTX PRO 6000 (96 ГБ VRAM)

  • веса с Hugging Face [2]

  • vLLM для инференса

vllm serve nvidia/NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4 \
  --trust-remote-code \
  --async-scheduling \
  --kv-cache-dtype fp8 \
  --swap-space 0 \
  --attention-backend TRITON_ATTN \
  --enable-chunked-prefill

В такой конфигурации vllm модель стабильно работала с контекстом до 256K токенов.

Для наших задач этого более чем достаточно – типичный контекст BI-запросов комфортно помещается в это окно.

Проверка на русском: MMLU-RU

Прежде чем тестировать модель в Luxms BI, мы проверили MMLU-RU [3] – русскоязычную версию стандартного бенчмарка, как базовую проверку качества рассуждений на других языках.

Результат: 70,8% точности (5-shot).

Это хороший результат, учитывая, что русский язык не заявлен в списке поддерживаемых и не был основным языком обучения. 

Сильные стороны:

Социальные науки лидируют с 77,6% по категории в целом, несколько предметов превышают 85%. Гуманитарные – 71,5%.
Социальные науки лидируют с 77,6% по категории в целом, несколько предметов превышают 85%. Гуманитарные – 71,5%.

Слабые стороны:

STEM в целом – 66,5%, тянут вниз абстрактная математика и формальные науки, где модель показывает результат, слабый относительно остальных категорий (49% по абстрактной алгебре и университетской информатике).

Итог

Где справляется

Модель уверенно работает со структурированными доменами — экономика, медицина, социальные науки — и хорошо понимает фактологию. Для BI это ключевое: нам не нужно решение дифференциальных уравнений, нам нужно понимание бизнес-данных.

Отдельно стоит отметить следование инструкциям. Модель точно держит формат, соблюдает ограничения и делает то, что просят — без лишней «отсебятины». В агентных сценариях это проявляется особенно хорошо: она использует инструменты, повторяет попытки при ошибках и самостоятельно их исправляет.

Контекст от 16K до 256K токенов отработал стабильно на одной GPU при утилизации 92 ГБ из 96 ГБ VRAM. Деградации не заметили.

Где пока нет

Модель приходит к правильному решению — но не всегда с первого раза. Например, при генерации дэшлета, мы просим модель вызвать функцию проверки дашлета, прежде чем показывать его пользователю. Там, где более мощные модели сразу выдают нужный результат, Nemotron 3 Super, ошибается, исправляется, пробует разные размерности, агрегации и тд. Это работает, но стоит времени. В продакшене, где важна скорость отклика, эти лишние итерации заметны.

Например, в нашем BI можно тегнуть конкретный ресурс и попросить модель с ним поработать. Вместо того чтобы сразу взяться за задачу, она может пойти изучить смежные таблицы, перепроверить связи, заглянуть в соседние данные, дэшлеты - на всякий случай. Иногда это выглядит избыточно. Но в итоге визуализация получается качественной, модель просто тратит больше шагов на дорогу к ней.

Ещё один момент – креативность. Модель надёжно решает задачи с понятной структурой, но реже предлагает неочевидные подходы. Это сложно измерить бенчмарком, но в работе чувствуется: она скорее исполнитель, чем изобретатель. Для типовой аналитики – нормально. Для задач, где нужен нестандартный взгляд, – ограничение.

Производительность – главный компромисс

Мы замерили пропускную способность на нашем железе при разной конкурентности запросов (вход 2K токенов, выход 2K токенов, одна RTX PRO 6000):

Главный вывод:

  • Nemotron отвечает медленнее

  • GPT-OSS быстрее примерно в 2–2.5 раза

Что в итоге:

Мы остались довольны потенциалом модели. Что пока не позволяет нам перейти полностью на этот сетап – недостаточная скорость инференса (в токенах/с) на одной RTX PRO 6000, а это наша базовая конфигурация для клиентов. Это склоняет нашу команду к использованию GPT-OSS-120B в продакшене, учитывая, что мы получаем двукратную пропускную способность на той же GPU для того же класса моделей. 

Когда имеет смысл использовать Nemotron 3 Super:

  • Вам важен длинный контекст (от 64K до 256K токенов)

  • У вас одна GPU на всё

  • Вы делаете прототип, исследуете агентные сценарии или решаете задачи в экономике, медицине, социальных науках

  • Скорость инференса не главное

Когда лучше выбрать другой вариант:

  • высоконагруженный продакшн с десятками параллельных пользователей

  • скорость в 2–3 раза важнее качества на длинном контексте

  • нужно решать абстрактные математические задачи

Что дальше

Круто, что продолжают появляться 120B модели, которые могут работать на одной GPU и способны качественно работать с длинным контекстом. Их появление меняет не только стоимость, но и сам подход к внедрению - сложные сценарии начинают помещаться в небольшие конфигурации.

И мы рассчитываем, что в будущем появятся более эффективные методы инференса для Nemotron 3 Super, которые откроют больше пространства для экспериментов и внедрения. Ждем:) 

Поделитесь вашим опытом! С какими моделями работаете?

О нас

Luxms BI – это не просто BI, а платформа, в которой можно строить собственные сценарии работы с данными и ИИ. Luxms BI позволяет не только визуализировать данные, но и использовать LLM-модели прямо внутри аналитических процессов – от создания кубов до построения дэшбордов и автоматизации аналитики.

Мы не ограничиваемся готовыми функциями вроде чат-ботов или встроенных ассистентов. Вместо этого даем возможность подключать LLM-модели и использовать их там, где это действительно нужно – внутри аналитики, процессов и бизнес-логики.

Сегодня это может быть ИИ-аналитик внутри BI, а завтра – любая другая задача, которую требуется бизнесу. Сценарии не ограничены, платформа Luxms BI универсальна

P.S. Если хотите с нами заниматься классными задачами, то приглашаем вас в команду.

Источники

  1. Qwen3.5-122B-A10B - https://huggingface.co/Qwen/Qwen3.5-122B-A10B

  2. NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4 - https://huggingface.co/nvidia/NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4

  3. mmlu ru - https://huggingface.co/datasets/NLPCoreTeam/mmlu_ru