Antra28 мар в 14:06

Как я приручил 30-миллиардник на RTX 3090: Тестируем Nemotron-Cascade-2 в домашнем сетапе

Простой

28 мин

9.2K

Искусственный интеллект

Кейс

+13

Комментарии 14

c46fd3da 28 мар в 15:14

Это на GTX 1070 QWEN 3.5 9B Q4

30 токенов/сек генерация

Antra 28 мар в 15:24

Да. Начинаем с простого задания. То же самое и при отключенных рассуждениях.

А вот с биологией, уверен, будет существенная разница в качестве ответа.

Просто "скормите" вопрос и ответ какой-нибудь продвинутой модели.

TitovVN1974 28 мар в 15:28

Поясните пожалуйста запуск для "не настоящего программиста".

{В какой среде/системе? Можно ли ""легко" запустить в Ollama etc}

Antra 28 мар в 16:12

У меня Windows + WSL2 (Ubuntu). Если у вас уже Linux или можете к своему Win добавить WSL по стандартным инструкцим - в самом конце статьи скрипт, как запустить. Он сам модель скачает.

kpmy 28 мар в 21:26

Для убунты со свежими драйверами пришлось убрать переменные CUDA_* и заменить образ на `vllm/vllm-openai:cu130-nightly`.

workhubonline 29 мар в 04:42

Попробуйте этот стэк. Настройка среды под запуск 1ой командной

https://github.com/workhubonline-soft/aistack

Самая стабильная система для запуска llm это linux. Моё субъективное мнение из двухлетнего опыта

edyapd 28 мар в 16:06

Казалось бы простая задача: "Я заказал пару ботинок. Но в магазине, при отправке, всё перепутали и положили в коробку вместо левого ботинка правый, а вместо правого левый. Что мне теперь делать?". Но модель составила претензию, для предъявления в магазин, вместо того, чтобы посоветовать поменять ботинки местами.

Гонял её на подобных вопросах. Показала себя на уровне gpt-oss-20b-NEOPlus (который к тому же быстрее).

Antra 28 мар в 16:11

Это да, известный прикол :)

Сейчас проверил. получилось так:

Убедитесь, что это ошибка, а не ваше недопонимание
Проверьте, что вы не перепутали левую и правую ногу сами (например, взгляните на форму подошвы: у босоножек, ботиноков и т.д. есть нюансы).
Убедитесь, что в коробке два ботинка одного размера и модели, но оба имеют одинаковую форму (например, оба «правое» или оба «левое»). Если они строные, значит, магазин действительно перепутал.

С русским у нее, конечно, не очень.

DasProtoss 29 мар в 04:44

Боже, во что превратился хабр… “А ниасилил подвинуть верхний ползунок в лм студии вправо на максимум, а нижний влево. Поэтому сотворил вот такую дичь и поставил 30 3-A модель ДЛЯ РАБОТЫ” на железе где отлично работает 27б полноценная, я погромист! а я осилил. Это было НЕВЕРОЯТНО СЛОЖНО и заняло 20 секунд. Меня возьмут на работу в яндекс с такими знаниями? 3090 ддр4

при этом уникальная статья о расчетах черных дыр в минусе

господи…

Antra 29 мар в 04:54

Именно об этом и статья. С предварительными рассчетами графов контейнер запускается дольше, чем в LM Studio модель подгрузить, но скорость 200+ против 150.

Разумеется, я не вашу тираду повторял, просто прицепился к "асинхронность".

В самой vLLM пишется скорость генерации, без размышлений, поэтому чуть ниже, но все равно на четверть выше вашего.

И это при том, что у меня RTX внешняя, подключена по Thunderbolt, что дополнительно вносит задержки и снижает производительность по сравнению со встройкой.

Впрочем, по скриншоту я вижу, что для ваших задач мое решения явно излишне.

SabMakc 29 мар в 07:49

Недавно нашел интересный “тест” для LLM на математику - попросить сконвертировать unixtimestamp в человеко-читаемый формат )

Хорошо справилась GLM-4.7-Flash - дала точную дату и время. Прочие протестированные модели (размерности 30B-A3B) показали гораздо худший результат.

Antra 29 мар в 16:53

Да вроде норм. nemtoron cascade 2 30b:

Это я просто взял число с www.unixtimestamp.com

Ха, оказывается, действительно не все так просто! Даже gpt-oss-20b, которой я тоже вполне доволен, лажает.

Видимо "размышления" (thinking) имеют существенное значение

SabMakc 29 мар в 19:23

Там не просто размышления - там очень много вычислений )

P.S. Nemotron-3-Nano-30B-A3B у меня ответил неправильно, как и qwen3-30B-A3B (thinking/coder). Пробовал еще что-то этой же размерности, но уже и не помню, что именно. P.P.S. Qwen3-30B-A3B-coder дал несколько вариантов консольных команд и код на питоне для вычисления значения )

Antra 20 часов назад

Я тоже начинал с этой модели, потом попробовал именно Cascade и по ощущениям он мне больше понравился. Даже планирую написать пост со сравнением нескольких зада, связанных не просто с програмированием, а и знанием предметной области (к примеру, кристаллографии), чтобы ему еще приходилось сопоставляять знания, а не просто известные куски кода собирать.

На текущий момент у меня единственная претензия к этой модели - плохо редактирует в aider. Не совсем правильно выводит всякие <<<SEARCH Там мне пришлось указать

# === Основная модель (архитектор) ===
model: "openai/nemotron-30b"
architect: true

# === Модель-редактор ===
editor-model: "openai/gpt-oss-20b"
editor-edit-format: "diff"

И да, часто моделям проще код для вычисления предлолжить, чем самим посчитать.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий