Комментарии / Профиль Rezzet / Хабр

Пользователь

Подписчики

ПрофильСтатьиПостыНовостиКомментарии1.1K

Бесплатный вайбкодинг с Qwen Code — установка, возможности

Q4_K_M полностью не влазит в 16ГБ.

Да, поэтому я и сказал про GPU Offloading, вы можете любое количество слоев перенести на CPU, это притормозит инференс, но если будет именно MoE модель, то не сильно. Qwen 3.6 есть в двух вариантах, MoE и плотная(могу ошибаться, dense вроде). Та которая 35B это MoE, а та которая 27B плотная, вот она сильно тормозит при GPU Offloading. Более того в llama.cpp появился флаг который не по слоям переносит на CPU, а по экспертам, это еще больше поднимает перф, грубо говоря вы указываете только какое количеством VRAM нужно оставить свободным и оно само решит че делать. Плюс этот режим делает модель умнее, роутер внутри модели более корректно работает и более правильно выбирает экспертов. Я советую вам взять llama.cpp причем бранч с турбоквантом и запустить его, Кими или Грок подскажут какие параметры точно использовать. Если нужно напишите я найду что я использовал. И это ВАУ! На 4090 я выбил 80токен/сек, на 5080 16Gb, то же было много около 40-50, с достаточно сильным офлоадом и контекстом 130к. И модель стала умнее. Qwen 3.6 35B код пишет почти на уровне фронтир моделей, если ее правильно настроить.

Бесплатный вайбкодинг с Qwen Code — установка, возможности

Rezzet 4 мая в 17:51

На АМД картах турбоквант пока не работает, без него на контекст нужно 5Гб видеопамяти, с ним около 1Гб. Это если контекст больше 100 тысяч токенов брать. Фишка MoE моделей в том что они очень лояльны к gpu offload - это разделение модели между оперативной и видеопамятью. Рецепт в целом так же, брать unsloth/Qwen3.6-35B-A3B-GGUF только в варианте UD-Q4_K_M. В LMStudio эти модели прям есть. А дальше подбирать параметр GPU Offloading так что бы у вас не была перегружена видеопамять, думаю что реально это будет между 18 и 22 слоями. Токенов 15-20 вы должны получить, но учтите что перф будет падать по ходу увеличения контекста.

Вам действительно нужны именно локальные модели? Qwen3.6-35B в таком размере это маленькое чудо по уровню кодинга, но она сильно проигрывает большим моделям. Любым, хоть китайским, хоть западным. DeepSeek V4 сейчас самый топ из китайских доступен на OpenRouter за копейки(по сравнению с GPT в Cursor) пишет лучше любой локальной модели в размере 30-120B. Заморачиваться с локальными моделями есть смысл если вот совсем совсем никак нельзя использовать облачные. В остальных случая потратьте денег примерно как пиццу заказать и программируйте через облачные.

Бесплатный вайбкодинг с Qwen Code — установка, возможности

Rezzet 20 апр в 20:32

на 5060ти будет крайне сложно, но в целом можно, я использую unsloth/Qwen3.6-35B-A3B-GGUF,

1) модель качал и Hugging Face, стоит попробовать разные варианты, но ниже Q4 кванта спускаться не стоит, лучше всего конечно будет работать UD-Q4_K_XL но 22Гб, надо будет сильно распиливать между CPU и GPU, можно попробовать UD-Q4_K_S

2) нужно брать эксперементальный бранч llama.cpp с турбоквантом, без него будет борода я брал собранные бинари atomicmilkshake/llama-cpp-turboquant-binaries опять же с Hugging Face

3) параметры запуска: если коротко я их проблюбил, лучше всего их подскажет Grok, по сути там важно врубить турбоквант и опцию когда будет автоматическое распиливание между GPU и CPU памятью по экспертам, а не по слоям. Ну и контекст токенов на 130к.

4) Агента лучше всего использовать opencode, Grok опять же подскажет как его настроить.

Так можно вытащить на вашей видеокарте 10-15токенов в секунду, возможно на большом контексте будет падать.(хотя я не знаю какой у вас проц, желательно что бы ядер было побольше, 16-ть и больше. Короче топовый проц нужен).

Я модели на 22Гб запускаю нормально с контекстом на 130т токенов, на видеокате 5080Ti(16gb) и 285k и выжимаю 50 токенов в секунду. На домашней 4090 перф улетает до 70 токенов в секунду. Модель Qwen3.6-35B очень умная, прям невероятно для такой маленькой модели.

Нейросеть MiMo V2 Pro: обзор скрытого ИИ-монстра от Xiaomi

Rezzet 15 апр в 21:10

К Qwen же есть бесплатный доступ через Qwen Code? Мне GLM 5.1 понравилась, весь день делал ей портирование одной библиотеки с одного языка на другой, тарифы очень хорошие по деньгам. Перенес кучу кода, немного логику дожал буквально одним запросом в Opus 4.6. Правда с тех пор он потупел и теперь какую-то ахинею выдает уже пару недель. Пока переключился на GPT для сложных задач. Но GLM мне прям понравился, думаю еще пара обновлений и это будет полноценный автономный инструмент под проект любой сложности и задачи любого уровня.

В целом непонятно зачем думать какая модель лучше, надо по кругу использовать все доступные. Так мне кажется результат будет лучше. Делать одной моделью, потом проверять другой.

Нейросеть MiMo V2 Pro: обзор скрытого ИИ-монстра от Xiaomi

Rezzet 14 апр в 06:44

По их же тестам модель проигрывает GLM, а на самом деле еще и Kimi и MimiMax в написание кода, смысла в ней пока не много, молодцы что сделали, но надо поработать еще.

Бесплатный вайбкодинг с Qwen Code — установка, возможности

Rezzet 13 апр в 04:43

Какие задачи можно решать с помощью кодинг агента? Программировать. Работаю с большим игровым проектом. Локальными моделями с рабочим. Облачными с домашними хомяками.

Если вы не олигарх, то выбор локальных моделей у вас сильно ограничен размером вашей видеопамяти. Как правило это будет 16-32Гб, еще неделю назад лидер там был один Qwen 3.5, потом вышла Gemma 4. Последняя вроде чуть лучше, но пока у нее проблемы с вызовом тулов, надо немного подождать пока ее подфиксят. На самом деле у обоих моделей два варианта, чисто текстовая "сплошная" модель и мультимодальные MoE варианты. Программируют лучше "сплошные" текстовые версии. Но тут засада, "сплошные" версии сильно падают в скорости, если вы ее распиливаете между GPU и CPU, а на 16Гб видеопамяти вы будете ее распиливать. На 24Гб уже можно запустить UD вариант Qwen3.5 27B чисто на видеокарте. А если еще взять чистый llama.cpp и экспериментальный бранч с TurboQuant то и контекста больше 100к токенов получится сделать.

Если коротко возиться с локальными моделями имеет смысл, если есть очень строгое ограничение на использование облачных моделей. Во всех остальных случаях заплатите 20-60 баксов за Cursor, GLM, Kimi, Minimax, Qwen(можно не платить) и получите на порядки лучше результат. Разница между локальными и облачными просто огромная, катастрофическая. Любая(из популярных) облачная модель будет на порядки(именно порядки!) умнее и лучше локальной в пределах 80B(а для запуска такого вам надо будет иметь железа на $3500-10000). Собственно за эти деньги вы можете пару лет оплачивать самые дорогие тарифы любого облака.

Бесплатный вайбкодинг с Qwen Code — установка, возможности

Rezzet 12 апр в 07:49

Попробуйте OpenCode проект очень активно развивается, по два релиза в день. Пользуюсь им для локальных моделей. Не для локальных то же, с ним можно почти ко всем поставщикам API напрямую подключаться по ключу. Для Qwen не имеет смысла, т.к. есть свой агент, а вот для GLM и MiniMax имеет, модели то же очень хорошие, вообще все китайские модели за последние пару месяцев сильно подтянулись, я бы сказал что это уже почти уровень последних версий GPT и Gemmini, а до Opus 4.6 всем далеко включая тех двух. Как минимум так была на пару недель назад, сейчас Opus почему-то сильно тупеет, начинает полный бред выдавать и какой-то ерундой страдать. Плюс сильно замедлился. Такое чувство что в пиковые часы его или на более простую модель подменяют, или крутят ему уровень "умности". Но работать стал плохо.

Сборка дешевого домашнего вычислительного кластера на двух процессорах и 6 «почти» RTX3080

Rezzet 8 апр в 07:01

Сколько токенов в секунду выдает на qwen3.5:35b ?

На шаг ближе к Скайнету: научились ли нейросети умножать?

Rezzet 7 апр в 07:24

Эти "новые болталки" пишут код лучше человека и анализируют на несколько порядков быстрее. Исполняемый код нужен не для того что бы нейронка "думала", он нужен для того что бы она умела "получать результат" того о чем она подумала. Если на пальцах, вам задают вопрос о умножение чисел, вы помните только таблицу умножения от 1 до 10, че вы делаете? Можете предсказать результат, ну типа примерно "несколько тысяч", так же может плюс минус и нейронка, но если вам надо посчитать точно, вы берете ручку и бумажку и начинаете исполнять алгоритм умножения в столбик и получаете точный результат. Вот ровно это хотят дать нейронке. Сейчас это можно сделать через тот же MCP, но не факт что нейронка им решит воспользоваться, MCP должен быть настроен и прочее, а так это будут внутренние MCP серверы о которых нейронка всегда знает и они всегда под рукой. Некоторые нейронки уже работают похожим образом, та же Kimi, когда от нее чето просят что она не сильно знает - она берет пишет код на питоне, исполняет его и дает результат.

Работая 6/1 по 12 часов и закрывая при этом школы мы заживем лучше? Вы бредите?

Rezzet 6 апр в 06:39

В ваш круг полномочий и работы входит решение ЭТОЙ проблемы? Или вы просто хотите абстрактно обсудить кажущуюся вам проблему и потешить собственное эго из разряда "смотри мир какой я умный"? Потому что регулярно многие знают как гениально играть на скрипке, только никогда не возьмут ее в руки, ибо тогда их гениальность рассыпится(надеюсь аналогия понятна).

-3

Работая 6/1 по 12 часов и закрывая при этом школы мы заживем лучше? Вы бредите?

Rezzet 5 апр в 19:55

Какого инженера? инженера никому не нужных дел? такого инженера? такого инженера и продавщица на кассе по зп превзойдет. Раз инженер значит может и переквалифицироваться.

-14

На шаг ближе к Скайнету: научились ли нейросети умножать?

Rezzet 5 апр в 13:03

Кстати хороший вопрос, почему самый бы не использовать самый лучший способ умножения - это дать модели встроенный или внешний MCP?

Встроить WebAssembly в нейронку - идея клевая ) мне лично очень нравится, но какой же пипец сразу начнется, безопасность выйдет из чата навсегда. Но других вариантов не особо много(лично я не вижу ни одного, варианты встроить питон или яву это то же самое). И надо просто быстрее научиться жить в мире где в нейронке может быть исполняемый код, отгребсти все проблемы с безопасностью, успешно их решить и двигаться дальше. А еще лучше дать нейронке среду где она сможет дописывать себе в песочнице новые инструменты ) что бы вообще жизнь малиной не казалась и все максимально поплохело ))) хаха

Сэм Альтман подтвердил, что ИИ-пузырь начал сдуваться

Rezzet 5 апр в 12:53

Коррекция грандиозных планов будет, а вот насчет истощения данных, кодинг-агенты под надзором людей очень быстро производят новый код, человек занимается правками что бы он работал и был правильным, на нем учат, это не истощение, это обучение с подкреплением, где подкреплением служит человек и работоспособность приложения. Это считай эволюция. И чем больше код начнут делать кодинг-агенты тем быстрее будет обучение.

Работая 6/1 по 12 часов и закрывая при этом школы мы заживем лучше? Вы бредите?

Rezzet 5 апр в 12:37

С IT все сложно, сейчас будет очень большое расслоение среди программистов, на так сказать кодеров и разработчиков. Оно и раньше было, но не такое заметное. Кодинг был сдерживающим фактором, сейчас кодинг перестал быть проблемой, сейчас один человек может действительно поднимать огромные проекты в соло. Что будет через два месяца я не знаю. Но сейчас просто невероятные возможности у тех кто понимает проекты, предметною область, кто может смотреть не только на код, а не весь продукт целиком, понимает всю специфику и знает как сделать круто и эффективно(что бы это не значило) у него за бесплатно теперь армия кодеров под рукой, сиди вороти горы. Не все так могут или хотят.

-2

Работая 6/1 по 12 часов и закрывая при этом школы мы заживем лучше? Вы бредите?

Rezzet 5 апр в 12:30

В чем-то от этого всего есть плюсы, армия доставщиков и таксистов же должна откуда-то браться )))

Что бы те кто учится могли заказать себе обед и доехать на работу за три копейки

+16

Работая 6/1 по 12 часов и закрывая при этом школы мы заживем лучше? Вы бредите?

Rezzet 5 апр в 12:23

Все хорошо, только Boston Dynamics принадлежит Hyundai и с ним носились как дурни со ступой много кто, но никому он не смог принести пока профит, кроме очень впечатляющих роликов на ютюб, остальное же было очень не очень. Возможно у Hyundai получится сделать своих же роботов себе же полезными.

Не знаю как сейчас, но 20 лет назад многие действительно не хотели идти учится в 10 и 11 класс, да вообще очень многим хватило бы и трех классов, собственно не смотря на оконченные 9 там знаний было примерно на 3. Так что вопрос стоит ли насильно тянуть людей к знаниям или наоборот сделать знания привилегией(может они тогда поймут в них смысл) это вопрос сложный. Я бы просто более развернуто рассказывал и показывал как образование позволяет добиваться лучшего места в жизни по доходам, уровню жизни и прочему. Но лично мое мнение что корень проблемы он не в том что государство что-то делает или не делает, а в том что 30 лет назад все социальные институты в стране рухнули и сама страна развалилась, до можно сказать это же было аж 30 лет, а что за 30 лет что-то радикально поменялось? Богатыми перестали быть те кто отжимал остатки промышленности и рынки? Бывшие крышыватели все посажены и не просочились на административные должности? В мое время мои одногодки реально хотели и видели свою "карьеру" в жизни быть бандитом. И этот шлейф будет тянуться еще очень долго. А обрубить его можно, ну например тем что сейчас называется "сталинские репрессии" или каким-то подобным методом, не уверен что вам понравится если такое начнет происходить. Многих невиновных намотает на колесо истории.

Так что извините, но статья так себе, нытье на то что у соседа в огороде огурец толще и что опять кто-то чего-то должен сделать или не сделать. А вы лично что делаете? Ведете кружок для школьников? Ведете образовательный канал? Обучаете подрастающее поколение?

Где же все эти приложения, создаваемые с помощью ИИ?

Rezzet 30 мар в 13:34

Если вам работодатель дает подписку - это одно, а если вы сами, то ой.

где производители ИИ моделей мамой клянутся

Конечно джентльмены друг друга не обманывают, впрочем т.к. это решение вашего работодателя, то его проблемы в случае чего.

Только не у всех так радужно. Из наблюдаемой реальности у руководителей в крупных и даже крупных ИТ(!) компаниях электричество из розетки, а ИИ - это в лучшем случае чат в дипсике, даже на уровне технического директора - кодинг-агенты это что-то рядом с лавандовым рафом. А менеджмен среднего звена напрямую задает вопросы "а зачем нам ты нужен как программист, если все будет делать ии".

То что люди работают в ИТ не делает их сразу супер быстрыми, они такие же инертные как остальные люди. Надо ждать пока знание о том что такое кодинг-агенты и как с ними жить начнет расползаться по профессии. И пока оно расползается не так быстро как хотелось бы. Особенно туго выпускникам пятилетней давности на всяких машин-лернинг факультетах постсоветских вузов. Им там за пять лет обучения вдолбили что такое ИИ(и эти вдолблённые факты вообще из какой-то параллельной реальности) им говоришь "ии агент может сделать анализ кода, или написать функцию, тесты вообще влет пишет" а они в ответ: "я знаю что такое ИИ - ничего он не может".

Где же все эти приложения, создаваемые с помощью ИИ?

Rezzet 30 мар в 07:40

Исследования - это прекрасно, на ком и как делали и что такое "пишут код с ИИ"? Использовать чат что бы проверить функцию это писать с ИИ? Или писать с ИИ это только кодинг агенты? Объясните цифру 65% если во всех компаниях в договоре есть пункт о неразглашение, то есть вы не можете взять и начать использовать облачный ИИ потому что прямо будете нарушать договор, а доступ к Cursor, Claude Code, GPT Codex и так далее из России запрещен санкциями, то есть компании не могут взять и купить подписку для своих сотрудников и как тогда 65% будут использовать ИИ. Или кто-то где-то внутри компании поднял локальную 9B модель - это уже использование ИИ?

Дома только за прошлый месяц сжег $400+ на Cursor на свои петпроекты, а вот на работе использования нуль. Ограничение контракта. Думаю что такая ситуация у многих.

Где же все эти приложения, создаваемые с помощью ИИ?

Rezzet 29 мар в 12:18

Как вариант, но по факту сейчас иное:

1) на ИИ идет хайп и занимаются им процентов 5-10(может меньше, может больше), основная масса разработчиков любых срезов и возрастов сейчас сидит и воспринимает ИИ как "очередную модную штуку" с которой поиграются и забудут, че время то на нее тратить, особенно в крупных компаниях, особенно когда код закрытый, особенно это проблема в руководстве у которых первый принцип запрещать и непущать. Когда они слышат слово "облако" у них сразу паника, что сейчас их супер важный код обработки нажатия кнопки как украдут(было бы что красть). То есть хайп большой, но уровень проникновения инструментов в реальную работу крайне низкий.

2) Модели которые что-то могут делать более менее автономно появились в январе этого года, по факту сейчас есть Opus 4.6 и все остальные, все остальные сильно проигрывают первому, в тестах это не так отражается, а вот в реальной работе Опус решает задачи, а остальные делают вид и как сломанные часы два раза в сутки показывают правильное время, впрочем даже это их уже делает полезными и чаще всего они что-то да решают.

3) У людей нет понимания как ИИ кодинг решит их проблемы, они видят очередное видео на ютюбе где кто-то делает какой-то лендинг или интернет магазин и думают, отлично модель умеет делать лендинг и интернет магазин, а мне не нужно ни то ни другое, пусть делают дальше.

По факту что бы о себе программисты не думали у них так же огромная инерционность в мышление, смене парадигмы и прочему. Выучить новую версию любимой библиотеки это не смена парадигмы. А когда реально меняются правила они все вместе превращаются в бабушку с пультом от телевизора. Подождите немного, когда у людей перестанут в голове вертеться вопросы, а как ИИ поможет именно им и вы увидите много нового, если еще будете в профессии и если еще будет профессия. За что я крайне сильно теперь переживаю.

+32

Intel возвращается к старой архитектуре процессоров — без гибридных ядер

Rezzet 28 мар в 10:37

По поводу перфа вы сравниваете 5950х который вышел в 2020 году с 13700к который вышел на два года позже, это не правильно, сравнивайте процессоры равных поколений, в данном случае надо сравнивать с 79хх линейкой, и ой, интел в пролете. Вы хотите ДДР4 - у амд все просто меняется сокет когда меняется тип памяти. И вот не надо ляля ну у АМД сокеты живут намного намного дольше чем у интел и они именно живут, и выходит три или четыре поколения процессоров которые можно вставить в сокет и он будет работать на старых материнках(возможно иногда надо поплясать с версией биоса). В целом все ваши доводы это натягивание совы на глобус, и про энергопотребление и про все остальное, особенно про отваливающиеся АМД процы, очень удобно манипулировать отсылками на знакомых. По факту у интел массово признанная проблема отвала чипа от перегрева(ага, очень холодные процы).

"5950 отдельная боль. Я его ненавидел пока владел. Горячий всегда даже под 240мм водой"

Вы просто обманываете, только что поставил HWMonitor и смотрю сколько потребляет процессор, в обычной работе 45-50W, во время компиляции улетает к 120W, лимит в 140W. Никаких настроек в биосе дополнительных не делал. И это лично мой второй процессор который стоит у меня дома, первый комп был рабочий на точно таком же проце, во время удаленки, вел себя так же, просто работал на хорошей воздушной супербашне и крутился только при однопоточной нагрузке ощутимо. Потому что в этом случае одно ядро ощутимо разгревалось, но это особенность работы всех современных процессоров. Ощутимо это аж до 78 градусов.

2 3 ...

52 53