Комментарии 14

Это на GTX 1070 QWEN 3.5 9B Q4
30 токенов/сек генерация
Поясните пожалуйста запуск для "не настоящего программиста".
{В какой среде/системе? Можно ли ""легко" запустить в Ollama etc}
У меня Windows + WSL2 (Ubuntu). Если у вас уже Linux или можете к своему Win добавить WSL по стандартным инструкцим - в самом конце статьи скрипт, как запустить. Он сам модель скачает.
Попробуйте этот стэк. Настройка среды под запуск 1ой командной
https://github.com/workhubonline-soft/aistack
Самая стабильная система для запуска llm это linux. Моё субъективное мнение из двухлетнего опыта
Казалось бы простая задача: "Я заказал пару ботинок. Но в магазине, при отправке, всё перепутали и положили в коробку вместо левого ботинка правый, а вместо правого левый. Что мне теперь делать?". Но модель составила претензию, для предъявления в магазин, вместо того, чтобы посоветовать поменять ботинки местами.
Гонял её на подобных вопросах. Показала себя на уровне gpt-oss-20b-NEOPlus (который к тому же быстрее).
Это да, известный прикол :)
Сейчас проверил. получилось так:
Убедитесь, что это ошибка, а не ваше недопонимание
Проверьте, что вы не перепутали левую и правую ногу сами (например, взгляните на форму подошвы: у босоножек, ботиноков и т.д. есть нюансы).
Убедитесь, что в коробке два ботинка одного размера и модели, но оба имеют одинаковую форму (например, оба «правое» или оба «левое»). Если они строные, значит, магазин действительно перепутал.
С русским у нее, конечно, не очень.
Боже, во что превратился хабр… “А ниасилил подвинуть верхний ползунок в лм студии вправо на максимум, а нижний влево. Поэтому сотворил вот такую дичь и поставил 30 3-A модель ДЛЯ РАБОТЫ” на железе где отлично работает 27б полноценная, я погромист! а я осилил. Это было НЕВЕРОЯТНО СЛОЖНО и заняло 20 секунд. Меня возьмут на работу в яндекс с такими знаниями? 3090 ддр4
при этом уникальная статья о расчетах черных дыр в минусе
господи…
Именно об этом и статья. С предварительными рассчетами графов контейнер запускается дольше, чем в LM Studio модель подгрузить, но скорость 200+ против 150.
Разумеется, я не вашу тираду повторял, просто прицепился к "асинхронность".

В самой vLLM пишется скорость генерации, без размышлений, поэтому чуть ниже, но все равно на четверть выше вашего.

И это при том, что у меня RTX внешняя, подключена по Thunderbolt, что дополнительно вносит задержки и снижает производительность по сравнению со встройкой.
Впрочем, по скриншоту я вижу, что для ваших задач мое решения явно излишне.
Недавно нашел интересный “тест” для LLM на математику - попросить сконвертировать unixtimestamp в человеко-читаемый формат )
Хорошо справилась GLM-4.7-Flash - дала точную дату и время. Прочие протестированные модели (размерности 30B-A3B) показали гораздо худший результат.
Да вроде норм. nemtoron cascade 2 30b:

Это я просто взял число с www.unixtimestamp.com
Ха, оказывается, действительно не все так просто! Даже gpt-oss-20b, которой я тоже вполне доволен, лажает.

Видимо "размышления" (thinking) имеют существенное значение
Там не просто размышления - там очень много вычислений )
P.S. Nemotron-3-Nano-30B-A3B у меня ответил неправильно, как и qwen3-30B-A3B (thinking/coder). Пробовал еще что-то этой же размерности, но уже и не помню, что именно. P.P.S. Qwen3-30B-A3B-coder дал несколько вариантов консольных команд и код на питоне для вычисления значения )
Я тоже начинал с этой модели, потом попробовал именно Cascade и по ощущениям он мне больше понравился. Даже планирую написать пост со сравнением нескольких зада, связанных не просто с програмированием, а и знанием предметной области (к примеру, кристаллографии), чтобы ему еще приходилось сопоставляять знания, а не просто известные куски кода собирать.
На текущий момент у меня единственная претензия к этой модели - плохо редактирует в aider. Не совсем правильно выводит всякие <<<SEARCH Там мне пришлось указать
# === Основная модель (архитектор) ===
model: "openai/nemotron-30b"
architect: true
# === Модель-редактор ===
editor-model: "openai/gpt-oss-20b"
editor-edit-format: "diff"И да, часто моделям проще код для вычисления предлолжить, чем самим посчитать.

Как я приручил 30-миллиардник на RTX 3090: Тестируем Nemotron-Cascade-2 в домашнем сетапе