Обновить
-6

Пользователь

3
Подписчики
Отправить сообщение

Q4_K_M полностью не влазит в 16ГБ.

Да, поэтому я и сказал про GPU Offloading, вы можете любое количество слоев перенести на CPU, это притормозит инференс, но если будет именно MoE модель, то не сильно. Qwen 3.6 есть в двух вариантах, MoE и плотная(могу ошибаться, dense вроде). Та которая 35B это MoE, а та которая 27B плотная, вот она сильно тормозит при GPU Offloading. Более того в llama.cpp появился флаг который не по слоям переносит на CPU, а по экспертам, это еще больше поднимает перф, грубо говоря вы указываете только какое количеством VRAM нужно оставить свободным и оно само решит че делать. Плюс этот режим делает модель умнее, роутер внутри модели более корректно работает и более правильно выбирает экспертов. Я советую вам взять llama.cpp причем бранч с турбоквантом и запустить его, Кими или Грок подскажут какие параметры точно использовать. Если нужно напишите я найду что я использовал. И это ВАУ! На 4090 я выбил 80токен/сек, на 5080 16Gb, то же было много около 40-50, с достаточно сильным офлоадом и контекстом 130к. И модель стала умнее. Qwen 3.6 35B код пишет почти на уровне фронтир моделей, если ее правильно настроить.

Могу рассказать как упростить этот процесс. Идете в чат ИИ и спрашиваете его о значимых новостях на тех источниках что вам интересно. Я так редит читать начал, значительно удобнее.

Конечно надо пробовать, но мне кажется что полагаться в работе и инструментах на некоторые "хаки" пусть и с официальных релизов - это так себе идея. Завтра Anthropic выпустит релиз где это запретит и что все будут делать? К тому же есть альтернатива ввиде OpenCode и других, может быть лучше тратить силы на допиливание открытых инструментов?

На АМД картах турбоквант пока не работает, без него на контекст нужно 5Гб видеопамяти, с ним около 1Гб. Это если контекст больше 100 тысяч токенов брать. Фишка MoE моделей в том что они очень лояльны к gpu offload - это разделение модели между оперативной и видеопамятью. Рецепт в целом так же, брать unsloth/Qwen3.6-35B-A3B-GGUF только в варианте UD-Q4_K_M. В LMStudio эти модели прям есть. А дальше подбирать параметр GPU Offloading так что бы у вас не была перегружена видеопамять, думаю что реально это будет между 18 и 22 слоями. Токенов 15-20 вы должны получить, но учтите что перф будет падать по ходу увеличения контекста.

Вам действительно нужны именно локальные модели? Qwen3.6-35B в таком размере это маленькое чудо по уровню кодинга, но она сильно проигрывает большим моделям. Любым, хоть китайским, хоть западным. DeepSeek V4 сейчас самый топ из китайских доступен на OpenRouter за копейки(по сравнению с GPT в Cursor) пишет лучше любой локальной модели в размере 30-120B. Заморачиваться с локальными моделями есть смысл если вот совсем совсем никак нельзя использовать облачные. В остальных случая потратьте денег примерно как пиццу заказать и программируйте через облачные.

на 5060ти будет крайне сложно, но в целом можно, я использую unsloth/Qwen3.6-35B-A3B-GGUF,

1) модель качал и Hugging Face, стоит попробовать разные варианты, но ниже Q4 кванта спускаться не стоит, лучше всего конечно будет работать UD-Q4_K_XL но 22Гб, надо будет сильно распиливать между CPU и GPU, можно попробовать UD-Q4_K_S

2) нужно брать эксперементальный бранч llama.cpp с турбоквантом, без него будет борода я брал собранные бинари atomicmilkshake/llama-cpp-turboquant-binaries опять же с Hugging Face

3) параметры запуска: если коротко я их проблюбил, лучше всего их подскажет Grok, по сути там важно врубить турбоквант и опцию когда будет автоматическое распиливание между GPU и CPU памятью по экспертам, а не по слоям. Ну и контекст токенов на 130к.

4) Агента лучше всего использовать opencode, Grok опять же подскажет как его настроить.

Так можно вытащить на вашей видеокарте 10-15токенов в секунду, возможно на большом контексте будет падать.(хотя я не знаю какой у вас проц, желательно что бы ядер было побольше, 16-ть и больше. Короче топовый проц нужен).

Я модели на 22Гб запускаю нормально с контекстом на 130т токенов, на видеокате 5080Ti(16gb) и 285k и выжимаю 50 токенов в секунду. На домашней 4090 перф улетает до 70 токенов в секунду. Модель Qwen3.6-35B очень умная, прям невероятно для такой маленькой модели.

К Qwen же есть бесплатный доступ через Qwen Code? Мне GLM 5.1 понравилась, весь день делал ей портирование одной библиотеки с одного языка на другой, тарифы очень хорошие по деньгам. Перенес кучу кода, немного логику дожал буквально одним запросом в Opus 4.6. Правда с тех пор он потупел и теперь какую-то ахинею выдает уже пару недель. Пока переключился на GPT для сложных задач. Но GLM мне прям понравился, думаю еще пара обновлений и это будет полноценный автономный инструмент под проект любой сложности и задачи любого уровня.

В целом непонятно зачем думать какая модель лучше, надо по кругу использовать все доступные. Так мне кажется результат будет лучше. Делать одной моделью, потом проверять другой.

По их же тестам модель проигрывает GLM, а на самом деле еще и Kimi и MimiMax в написание кода, смысла в ней пока не много, молодцы что сделали, но надо поработать еще.

Какие задачи можно решать с помощью кодинг агента? Программировать. Работаю с большим игровым проектом. Локальными моделями с рабочим. Облачными с домашними хомяками.

Если вы не олигарх, то выбор локальных моделей у вас сильно ограничен размером вашей видеопамяти. Как правило это будет 16-32Гб, еще неделю назад лидер там был один Qwen 3.5, потом вышла Gemma 4. Последняя вроде чуть лучше, но пока у нее проблемы с вызовом тулов, надо немного подождать пока ее подфиксят. На самом деле у обоих моделей два варианта, чисто текстовая "сплошная" модель и мультимодальные MoE варианты. Программируют лучше "сплошные" текстовые версии. Но тут засада, "сплошные" версии сильно падают в скорости, если вы ее распиливаете между GPU и CPU, а на 16Гб видеопамяти вы будете ее распиливать. На 24Гб уже можно запустить UD вариант Qwen3.5 27B чисто на видеокарте. А если еще взять чистый llama.cpp и экспериментальный бранч с TurboQuant то и контекста больше 100к токенов получится сделать.

Если коротко возиться с локальными моделями имеет смысл, если есть очень строгое ограничение на использование облачных моделей. Во всех остальных случаях заплатите 20-60 баксов за Cursor, GLM, Kimi, Minimax, Qwen(можно не платить) и получите на порядки лучше результат. Разница между локальными и облачными просто огромная, катастрофическая. Любая(из популярных) облачная модель будет на порядки(именно порядки!) умнее и лучше локальной в пределах 80B(а для запуска такого вам надо будет иметь железа на $3500-10000). Собственно за эти деньги вы можете пару лет оплачивать самые дорогие тарифы любого облака.

Попробуйте OpenCode проект очень активно развивается, по два релиза в день. Пользуюсь им для локальных моделей. Не для локальных то же, с ним можно почти ко всем поставщикам API напрямую подключаться по ключу. Для Qwen не имеет смысла, т.к. есть свой агент, а вот для GLM и MiniMax имеет, модели то же очень хорошие, вообще все китайские модели за последние пару месяцев сильно подтянулись, я бы сказал что это уже почти уровень последних версий GPT и Gemmini, а до Opus 4.6 всем далеко включая тех двух. Как минимум так была на пару недель назад, сейчас Opus почему-то сильно тупеет, начинает полный бред выдавать и какой-то ерундой страдать. Плюс сильно замедлился. Такое чувство что в пиковые часы его или на более простую модель подменяют, или крутят ему уровень "умности". Но работать стал плохо.

Сколько токенов в секунду выдает на qwen3.5:35b ?

Эти "новые болталки" пишут код лучше человека и анализируют на несколько порядков быстрее. Исполняемый код нужен не для того что бы нейронка "думала", он нужен для того что бы она умела "получать результат" того о чем она подумала. Если на пальцах, вам задают вопрос о умножение чисел, вы помните только таблицу умножения от 1 до 10, че вы делаете? Можете предсказать результат, ну типа примерно "несколько тысяч", так же может плюс минус и нейронка, но если вам надо посчитать точно, вы берете ручку и бумажку и начинаете исполнять алгоритм умножения в столбик и получаете точный результат. Вот ровно это хотят дать нейронке. Сейчас это можно сделать через тот же MCP, но не факт что нейронка им решит воспользоваться, MCP должен быть настроен и прочее, а так это будут внутренние MCP серверы о которых нейронка всегда знает и они всегда под рукой. Некоторые нейронки уже работают похожим образом, та же Kimi, когда от нее чето просят что она не сильно знает - она берет пишет код на питоне, исполняет его и дает результат.

В ваш круг полномочий и работы входит решение ЭТОЙ проблемы? Или вы просто хотите абстрактно обсудить кажущуюся вам проблему и потешить собственное эго из разряда "смотри мир какой я умный"? Потому что регулярно многие знают как гениально играть на скрипке, только никогда не возьмут ее в руки, ибо тогда их гениальность рассыпится(надеюсь аналогия понятна).

Какого инженера? инженера никому не нужных дел? такого инженера? такого инженера и продавщица на кассе по зп превзойдет. Раз инженер значит может и переквалифицироваться.

Кстати хороший вопрос, почему самый бы не использовать самый лучший способ умножения - это дать модели встроенный или внешний MCP?

Встроить WebAssembly в нейронку - идея клевая ) мне лично очень нравится, но какой же пипец сразу начнется, безопасность выйдет из чата навсегда. Но других вариантов не особо много(лично я не вижу ни одного, варианты встроить питон или яву это то же самое). И надо просто быстрее научиться жить в мире где в нейронке может быть исполняемый код, отгребсти все проблемы с безопасностью, успешно их решить и двигаться дальше. А еще лучше дать нейронке среду где она сможет дописывать себе в песочнице новые инструменты ) что бы вообще жизнь малиной не казалась и все максимально поплохело ))) хаха

Коррекция грандиозных планов будет, а вот насчет истощения данных, кодинг-агенты под надзором людей очень быстро производят новый код, человек занимается правками что бы он работал и был правильным, на нем учат, это не истощение, это обучение с подкреплением, где подкреплением служит человек и работоспособность приложения. Это считай эволюция. И чем больше код начнут делать кодинг-агенты тем быстрее будет обучение.

С IT все сложно, сейчас будет очень большое расслоение среди программистов, на так сказать кодеров и разработчиков. Оно и раньше было, но не такое заметное. Кодинг был сдерживающим фактором, сейчас кодинг перестал быть проблемой, сейчас один человек может действительно поднимать огромные проекты в соло. Что будет через два месяца я не знаю. Но сейчас просто невероятные возможности у тех кто понимает проекты, предметною область, кто может смотреть не только на код, а не весь продукт целиком, понимает всю специфику и знает как сделать круто и эффективно(что бы это не значило) у него за бесплатно теперь армия кодеров под рукой, сиди вороти горы. Не все так могут или хотят.

В чем-то от этого всего есть плюсы, армия доставщиков и таксистов же должна откуда-то браться )))

Что бы те кто учится могли заказать себе обед и доехать на работу за три копейки

Все хорошо, только Boston Dynamics принадлежит Hyundai и с ним носились как дурни со ступой много кто, но никому он не смог принести пока профит, кроме очень впечатляющих роликов на ютюб, остальное же было очень не очень. Возможно у Hyundai получится сделать своих же роботов себе же полезными.

Не знаю как сейчас, но 20 лет назад многие действительно не хотели идти учится в 10 и 11 класс, да вообще очень многим хватило бы и трех классов, собственно не смотря на оконченные 9 там знаний было примерно на 3. Так что вопрос стоит ли насильно тянуть людей к знаниям или наоборот сделать знания привилегией(может они тогда поймут в них смысл) это вопрос сложный. Я бы просто более развернуто рассказывал и показывал как образование позволяет добиваться лучшего места в жизни по доходам, уровню жизни и прочему. Но лично мое мнение что корень проблемы он не в том что государство что-то делает или не делает, а в том что 30 лет назад все социальные институты в стране рухнули и сама страна развалилась, до можно сказать это же было аж 30 лет, а что за 30 лет что-то радикально поменялось? Богатыми перестали быть те кто отжимал остатки промышленности и рынки? Бывшие крышыватели все посажены и не просочились на административные должности? В мое время мои одногодки реально хотели и видели свою "карьеру" в жизни быть бандитом. И этот шлейф будет тянуться еще очень долго. А обрубить его можно, ну например тем что сейчас называется "сталинские репрессии" или каким-то подобным методом, не уверен что вам понравится если такое начнет происходить. Многих невиновных намотает на колесо истории.

Так что извините, но статья так себе, нытье на то что у соседа в огороде огурец толще и что опять кто-то чего-то должен сделать или не сделать. А вы лично что делаете? Ведете кружок для школьников? Ведете образовательный канал? Обучаете подрастающее поколение?

Если вам работодатель дает подписку - это одно, а если вы сами, то ой.

 где производители ИИ моделей мамой клянутся

Конечно джентльмены друг друга не обманывают, впрочем т.к. это решение вашего работодателя, то его проблемы в случае чего.

Только не у всех так радужно. Из наблюдаемой реальности у руководителей в крупных и даже крупных ИТ(!) компаниях электричество из розетки, а ИИ - это в лучшем случае чат в дипсике, даже на уровне технического директора - кодинг-агенты это что-то рядом с лавандовым рафом. А менеджмен среднего звена напрямую задает вопросы "а зачем нам ты нужен как программист, если все будет делать ии".

То что люди работают в ИТ не делает их сразу супер быстрыми, они такие же инертные как остальные люди. Надо ждать пока знание о том что такое кодинг-агенты и как с ними жить начнет расползаться по профессии. И пока оно расползается не так быстро как хотелось бы. Особенно туго выпускникам пятилетней давности на всяких машин-лернинг факультетах постсоветских вузов. Им там за пять лет обучения вдолбили что такое ИИ(и эти вдолблённые факты вообще из какой-то параллельной реальности) им говоришь "ии агент может сделать анализ кода, или написать функцию, тесты вообще влет пишет" а они в ответ: "я знаю что такое ИИ - ничего он не может".

Исследования - это прекрасно, на ком и как делали и что такое "пишут код с ИИ"? Использовать чат что бы проверить функцию это писать с ИИ? Или писать с ИИ это только кодинг агенты? Объясните цифру 65% если во всех компаниях в договоре есть пункт о неразглашение, то есть вы не можете взять и начать использовать облачный ИИ потому что прямо будете нарушать договор, а доступ к Cursor, Claude Code, GPT Codex и так далее из России запрещен санкциями, то есть компании не могут взять и купить подписку для своих сотрудников и как тогда 65% будут использовать ИИ. Или кто-то где-то внутри компании поднял локальную 9B модель - это уже использование ИИ?

Дома только за прошлый месяц сжег $400+ на Cursor на свои петпроекты, а вот на работе использования нуль. Ограничение контракта. Думаю что такая ситуация у многих.

1
23 ...

Информация

В рейтинге
4 998-й
Зарегистрирован
Активность