andreygaag19 июн в 07:09

OpenCode с NorthMiniCode на своем железе

Средний

5 мин

8.4K

Open source * Инженерные системы * Настройка Linux * Ненормальное программирование * Искусственный интеллект

Туториал

Из песочницы

+12

Комментарии 12

kracko23 19 июн в 09:33

Интересная статья.

1. Стоит повторять путь на VM поверх винды?

2. Одной 5070ti хватит?

3. Больше мощностей помогут превратить бухого мидла в трезвого?

andreygaag 19 июн в 10:25

Не вижу препятствий, llama.cpp собирается под винду
16gb маловато, но если квантовать кэши, брать q3 версию модели (качество будет хуже) - можно впихнуть. Ну или часть в ram на cpu - пожертвовать скоростью ради качества.
Трезветь однозначно будет, если взять исходную модель и лучшее железо. Тут дело скорее не в мощности, а в обьеме vram. Ну и для трезвости добавить авто ревью qwen-ами в виде трезвого надсмотрщика. Возможно поэкспериментирую с этим, опишу.

kracko23 19 июн в 10:29

Спасибо, меня исследование контроля и управления качеством больше всего интересует.

Мало что-то про эту самую трезвость большинство думает и измеряет

d00m911 21 июн в 20:20

Хрен вы прокинете GPU в виртуалку поверх винды, я думаю. Ничто не мешает всё то же самое сделать прямо в винде)

siv237 24 июн в 01:29

Судя по внешнему виду, этот сервер точно не должено быть рабочей станцией.

Прекрасное решение сделать из него PROXMOX сервер и спокойно прокидывать видеокарты в контейнеры LXC причем можно одну и туже карту прокинуть хоть в 10 контейнеров одновременно и все будут работать!

При этом на нем можно даже крутить винду с ускорением ГПУ и играть к примеру на этих картах в режиме стриминга хоть на утюге в сайберпанк 2077 когда надоест ИИ мучать :)

Ну или вывести винду на один из монитров реальной карты прямо с виртуальной машины и получить полную имитацию локальной системы.

Gamefin 19 июн в 12:25

Согласен, оч много статей про облака, но единицы про локальное использование. Мидл может себе позволить за год накопить на rtx6000pro, так что надеюсь на более глубокие статьи

Dionisiy_eshe 20 июн в 15:19

Спасибо. Вот еще похожая дообученная на датасете от Fable 5 (с дополнениями рассуждений от опуса) плотная модель с MTP и при этом на 12 Гб запустится https://huggingface.co/yuxinlu1/gemma-4-12B-agentic-fable5-composer2.5-v2-3.5x-tau2-GGUF автор проверял админской частью бенчмарка тау2 телеком - 55% эта модель, 12% базовая, 90% клауд. Как я понял тут главное питон, баш, веб и дебагер, общие знания затерты и вообще что там оказалось затертым непонятно, главное терминал, программирование и дебаг.

Потестировал в винде, отличается от базовой модели сильно, очень короткие размышления, поиски по реестру, правка строк внутри файлов, множество тестов, запускал ллама с --tools all, без агента, без промптов.

Т.е. попросил в обычном чате написать код и он начал искать установленные зависимости питона, ставить их, сравнивать версии, создал файл рядом с бинарником ллама и долго его тестировал, вылетело в конце, файл рабочий оказался. Ну это или винда или ллама с базовыми 8 инструментами. Как факт промптов на использование tools или тестов не нужно. Работает шустро.

Автор утверждает что именно датасет с рассуждениями от фабл 5 дал прирост в бенчмарке и хочет довести бенчмарк до 60-70% в третьей версии.

andreygaag 20 июн в 17:14

Интересно, спасибо за наводку, стоит последить-попробовать.

Mintavrus 22 июн в 06:42

То что "модель NorthMiniCode в отличие от Qwen специально заточена под агентские циклы" не делает ее лучше Qwen в агентских сценариях. Странный выбор модели учитывая что Qwen3.6 гораздо лучше.

andreygaag 23 июн в 07:10

выбор вполне обоснованный - qwen3.6 это модель общего назначения, а для данной задачи всякие vision функции и знания о древнем Риме и прочем не очень нужны.

Mintavrus 23 июн в 08:42

А как vision функции и общие знания мешают в агентских задачах? Несмотря на то что Qwen3.6 универсальная модель она агентские задачи все равно решает лучше.

andreygaag 23 июн в 12:55

“Qwen3.6 всё равно решает агентские задачи лучше” — это сильное утверждение, которое надо подтверждать одинаковым экспериментом.

Vision и общие знания сами по себе не мешают. Но в агентских coding-задачах важна не максимальная универсальность, а способность держать workflow: читать локальный контекст, не фантазировать, пользоваться инструментами, делать минимальные патчи и проверять результат.

Более универсальная модель может быть сильнее по общим бенчмаркам, но это не гарантирует, что она лучше работает в конкретном цикле read → edit → test → fix на конкретном проекте, железе и toolchain.

Статья не про сравнение North и Qwen, а про практический опыт запуска North Mini Code локально в OpenCode на домашнем железе.

Возможно, Qwen3.6 действительно окажется сильнее в части задач. Возможно, оптимальным вариантом будет разделение ролей в агентском цикле: North как быстрый code-writing agent, Qwen как reasoning/review-модель. Но это надо проверять на конкретных задачах, а не утверждать заранее.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий