Комментарии / Профиль rtrgdfb / Хабр

Пользователь

Подписчики

Почему Qwen3.6-27B лучше чем Claude? Железная коробка, которая научилась думать

Согласен, в такой ситуации возможно Opus лучше.

Позволю себе привести пример, может он вам пригодится. (я последние 3-4 недели очень активно тестирую возможности локальных моделей, на примере Qwen3.6-27B и открыл для себя много нового, а так тоже использовал Opus)

Есть у меня длиннющая портянка кода, которую Opus написал примерно пол-года назад (4846 строк) код работает, задачу выполняет. Но хорошо бы было подключить этот код к API, чтобы он данные мог дергать и инструменты использовать. Сам я этот код не писал, просто пролистал и честно сказать охоты разбираться, да и времени у меня нет. Скажу только, что разбить этот код на несколько файликов поменьше невозможно, системе нужен 1 файл который включает все. Ну в общем решил я скормить эту задачу Qwen и Opus и посмотреть что получится.

С опусом пришлось минут 40 поспорить, т.к. он тупил, говорил что без API код лучше и что это вообще невозможно. Потом я его "уговорил", он вроде все понял и запыхтел.

С Qwen - все было немного проще. Она сразу согласилась все сделать как я прошу. Но перед редактированием кода я попросил ее сделать следующее:
1. Инициировать Git и закоммитить текущее состояние (чтобы она могла откатиться если что.
2. Создать файл TODO в который сохранить информацию о том, что она собирается сделать, а именно:

Найти и проанализировать API требуемое для решения задачи и имеющийся код, найти, как должен быть изменен код для решения поставленной задачи, сколько изменений, точки изменения, сниппеты для каждого изменения, порядок изменения - все сохранить в файл TODO. (было найдено 26 точек в которых код должен быть добавлен или изменен)
Проанализировать возможные риски, определить тесты которые должны быть выполнены - все тоже в TODO
Составить чек-лист всего того, что должно быть проверенно после завершения процесса - тоже в TODO

3. Писать все изменения в log файл.

Qwen подумала и составила список. Это заняло примерно 15 минут (на все). Далее я попросил ее выполнить изменение кода. Изменение со всеми тестами заняло примерно 10 минут. Код оказался рабочий но подключение к API с первого раза не удалось, я сам немного подумал и понял, что на сервере используется порт нестандартный для этого API. После изменения порта все заработало. (т.е. фактически с первого раза, т.к. ошибка была моя)

Контекстное окно модели было 120000 токенов. Использовался стандартный фильтр с параметрами:

Default Budget Tokens 118К
Response Headroom Tokens: 84К

Максимальный расход токенов на чтение составил 76К

С этими установками, модель помнила примерно 14 последних сообщений чата (собственно потому я и заставил ее сначала составить TODO и писать каждую выполненную операцию в лог-файл (вариант долговременной памяти)

Что до опуса - его код с первого раза не заработал и упал с ошибкой чтения входных данных. Т.е. он сломал что-то и не позаботился протестировать и исправить ошибку.

Кстати на счет вашей статистики - львиную долю занимают Messages - 400k токенов. Контекст безусловно важен, но если заставить llm сначала составить небольшой файлик в котором суммировать то, что должно быть сделано, то его можно и обрезать до 7-8 последних сообщений. И для модели и для вас сильно проще: 20 - 30 страниц ТЗ вместо 400к токенов чата, и расход токенов существенно меньше. (я понимаю, что вы используете ТЗ и файлы, которые нужны модели для разработки, в данном случае под ТЗ я скорее понимаю план изменения кода (что будет сделано, где, как, как протестировано и т.п.)

Но вообще, каждый выбирает инструмент, который удобен именно ему, так-что я ничего не навязываю, просто поделился любопытным наблюдением.

Почему Qwen3.6-27B лучше чем Claude? Железная коробка, которая научилась думать

rtrgdfb 23 мая в 00:21

Так это вообще замечательно!
Пусть модель на первом шаге разобьет ваше задание на шаги (если вы сами его не разбили) а потом брэйнстормит каждый шаг: предлагает идеи собирает информацию по каждой идее, анализирует, делает выводы, критикует, корректирует, опять ищет инфорацию и т.д. и так идея за идеей. И на каждый отдельный шаг 120К токенов. Если нужно перелопатить много сайтов или литературы - разбейте на меньшие шаги, чтобы загружало и анализировало информацию кусками, допустим по 10 страниц за раз, ну или по 20 (нужно смотреть сколько влезет). Ну и пусть параллельно составляет отчет (создает файл и дописывает в него идеи, источники, результаты анализа). В конце цепочки можно будет запустить анализ этого файла и сделать выводы.

Почему Qwen3.6-27B лучше чем Claude? Железная коробка, которая научилась думать

rtrgdfb 22 мая в 20:15

Мне действительно нужно контекстное окно в сотни тысяч ... любой достаточно сложный проект потребует примерно того же.

Кстати, по поводу длинных чатов - можно не заморачиваться и использовать фильтры: https://docs.openwebui.com/troubleshooting/context-window/
а можно и пайплайны и фильтры, вместе.

Почему Qwen3.6-27B лучше чем Claude? Железная коробка, которая научилась думать

rtrgdfb 22 мая в 17:41

Вы безусловно правы! Если тренировать - нужны совершенно другие ресурсы, и вы платите именно за эти ресурсы а не за ответы модели, это выгоднее чем покупать H200 для разовых задач.

Что до контекстного окна - мне сложно судить, какие задачи вы решаете, иногда нужно действительно очень большое окно и соответственно большая vRAM. Но давайте прикинем, что можно получить дома, с 24GB и той-же Qwen3.6-27B. Как уже писали выше в 24GB можно впихнуть 120К окно. Да, не у всех есть RTX4090, но как уже обсуждали выше есть вполне адекватные альтернативы, если заморочиться то можно и на 230К окно организовать. Теперь смотрим:

Мне действительно нужно контекстное окно в сотни тысяч ... любой достаточно сложный проект потребует примерно того же.

Любую достаточно сложную задачу можно разбить на несколько более простых подзадач. Т.е. ваш проект скорее всего можно разбить, ну допустим на 5 подзадач (а скорее всего можно и на 10-15). Каждая подзадача может иметь окно до 120К (это примерно 200-300 страниц А4) и это на один шаг. Допустим для простоты расчета, что ваша задача разбита на 10 шагов (каждый вмещает 120К токенов), вот вам и 1млн 200К токенов на задачу (рассчет, анализ данных, поиск информации, да что угодно!).
Единственное ограничение - простой чат (он все еще ограничен 120К).
Но и тут вы можете немножко схитрить и получить значительно больше 1 млн. - Вы можете сделать относительно простой пайплайн, который будет состоять из 2х шагов. На первом он допустим будет анализировать N последних сообщений и понимать, чего вы хотите, а на втором отвечать на ваш вопрос (не загружайте в первый шаг все сообщения, загрузите только N последних, тогда он никогда не выйдет за пределы окна). Каждый шаг имеет лимит 120К, и каждый раз когда вы задаете вопрос в чате - пайплайн запускается заново. Таким образом он никогда не закончится и вы легко наберете миллион а то и больше. Лимит модели - тут уже особо не играет, т.к. при каждом вопросе ваш пайплайн запускается заново и вы опять имеете ваши 120К токенов для того, чтобы модель поняла, чего вы хотите, и 120К чтобы ответила на вопрос. (а можно еще шаги добавить чтобы подтянула и проанализировала документы, поискала информацию в интернете, валидировала результаты, написала код, да все что душе угодно! и каждый шаг 120К токенов)

Решается дома за один вечер.

Почему Qwen3.6-27B лучше чем Claude? Железная коробка, которая научилась думать

rtrgdfb 22 мая в 14:40

Сильно упрощая - иметь собственное орудие производства и возможность изготовить все что нужно по себестоимости часто бывает выгоднее чем платить монополисту любую цену, которую он попросит. Хотя конечно, стоимость владения и амортизация.

Это также как: "Зачем вам иметь локальный компьютер и возможность устанавливать то, что вы хотите, когда мы лучше знаем что вам нужно, пользуйтесь нашими мэйнфреймами!" Ну или хотя-бы нашими закрытыми системами (привет Apple и Google Android). С персоналками - не получилось, там относительная свобода, с телефонами - получилось - доступ к устройству и его возможностям сильно ограничен (практически монополия). Интересно, что будет с доступом к разуму?

Контекстное окно 32К - было приведено как пример. В пайплайне вы можете задавать размер окна для каждого шага, нужно поставили 8К, нужно поставили 120К, нужно включили thinking mode (для анализа или чего-то сложного), для следующего шага не нужно - выключили (чтобы ускорить процесс). В llama.cpp можно вообще –reasoning-budget задать, например 2048, или еще меньше, чтобы не слишком долго думал.
В результате некоторые шаги, например где нужно классифицировать что-то относительно простое модель может выполнять за 0.3 - 0.4 секунды, ну а на некоторых может и на пару минут задуматься.

Почему Qwen3.6-27B лучше чем Claude? Железная коробка, которая научилась думать

rtrgdfb 22 мая в 01:43

я имею ввиду, что инструменты которые позволяют решать например математику или использовать скрипты одинаково полезны для любой модели, хоть умной хоть не очень.

Очень простой пример: модель сгенерила файл в формате marcdown (например отчет или заметку), а мне этот файл нужен в формате html (например). Я хочу сказать модели - конвертируй в html. Что произойдет если я это скажу? - скорее всего даже умная модель начнет пыхтеть переписывая файл в html. Этот процесс может занять несколько минут (зависит от размера файла), ну и результат может быть не совсем корректный (зависит от размера файла и от модели). Но вместо этого я могу дать модели скилл: прописать в отдельном файле например так:

description: Use whenever the user asks to convert a document from one format to another (markdown to html, md to pdf, html to docx, etc.). Always use pandoc, never rewrite.
Example:pandoc [source] -o [output]

после этого каждый раз, когда я буду просить модель преобразовать файл в нужный формат модель будет мгновенно запускать pandoc соответственно преобразование будет произведено мгновенно и без ошибок.

Написать и добавить любой скилл сейчас просто, если возникают вопросы - всегда можно спросить модель или ChatGPT. Можно использовать питон, регулярки, html - шаблоны документов, да все что душе угодно и всегда получать предсказуемый результат.

Почему Qwen3.6-27B лучше чем Claude? Железная коробка, которая научилась думать

rtrgdfb 21 мая в 15:45

Не знаю, зачем эта возня с локальными моделями (я про простые, а не большие корпоративные с большим бюджетом). Нам обычным пользователям сейчас деньги инвесторов дают уникальный шанс покататься на Феррари по цене Тойоты, пользуйтесь пока есть возможность, скоро этого не будет. Конечно если у вас бот который отвечает 24/7, несомненно это имеет смысл. Но если вы как большинство используете ИИ для работы во время рабочего дня, уж лучше на Феррари покататься)

ну например я очень люблю использовать локальные модели для проведения исследований в интернете.

Т.е. когда ищешь какую-либо информацию в интернете можно конечно открыть пару сотен сайтов вручную, прочитать все страницы, проанализировать, обобщить и написать ресеч вручную - но это займет пару недель, если только этим заниматься.

Если использовать для этого топовую модель Google, Anthropic, или OpenAI - она:
1. очень быстро съест лимиты, и предложит подождать с другими задачами
2. неизвестно как она ищет, что она на самом деле находит, и какую информацию она не включает в отчет по причине, того, что пользователю знать неположено (все облачные модели censored)

Если же использовать локальную модель - я могу настраивать поиск как мне удобно, сохранять источники локально (если захочу), задавать дополнительные задачи и аспекты, которые модель должна выполнить и проанализировать. Ну и запустил ее - она пашет, а сам пошел работать, вечером пришел - почитал, что интересного она накопала.

пс. Сейчас запустил свой технический бенчмарк на этой модели Qwen3.6-27B (нужно сделать расчеты и построить график), она в половине случаев ошиблась в расчетах (график неверный) и делала всё гораздо дольше топовых. Я лучше куплю подписку чтобы получить верный результат сразу и быстро, чем сидеть разбираться в сгенером и искать где что пошло не так.

попробуйте дать модели инструменты, например возможность использовать Python. Посмотрите в сторону Open-Terminal. Там есть пакеты для анализа данных и вы можете прописать какие и в каких случаях модель должна использовать. Попробуйте написать Skills - как и какие инструменты использовать когда вы просите построить график или проанализировать csv файл. Топовые модели вовсю используют инструменты.

Почему Qwen3.6-27B лучше чем Claude? Железная коробка, которая научилась думать

rtrgdfb 21 мая в 14:51

не сравнивал, в целом облачные провайдеры представляют более современные модели, локальные модели отстают примерно на год-полтора. Это значит они сегодня работают на уровне топовых моделей 2025 года. Что для локальной модели, которую можно запустить дома довольно неплохо. Плюсы и минусы я попытался изложить в статье.

Почему Qwen3.6-27B лучше чем Claude? Железная коробка, которая научилась думать

rtrgdfb 21 мая в 14:42

У вас всегда есть наготове сумма для покупки сломавшейся карты, а лучше сама карта в ЗИП?Вы учитываете амортизацию карты в своих прогнозах стомости владения или просто скрестили пальцы?

Если для бизнеса - то конечно да - лежит на складе (хотя конечно не 100% бэкап)

Если для меня лично - я не покупал карту для запуска LLM, она у меня была для других задач (SolidWorks, графика и проч). Но если погорит - пойду и куплю новую, т.к. нужна для работы.

Касательно моего домашнего сетапа - пока я просто поставил две виртуалки (QEMU/KVM) одну для графики и дизайна, вторую для экспериментов с LLM и прокинул туда имеющуюся 4090. Работает хорошо, бэкапится замечательно, разворачивается на новом железе ну примерно за час. Покупать новое железо пока не собираюсь.

Почему Qwen3.6-27B лучше чем Claude? Железная коробка, которая научилась думать

rtrgdfb 21 мая в 14:19

Следующая статья будет - ллм в вашей голове лучше чем клод, т.к. она приватная, бесплатная и нет лимитов :)

Неее - это же очевидно. Никто читать не будет! :)

Почему Qwen3.6-27B лучше чем Claude? Железная коробка, которая научилась думать

rtrgdfb 20 мая в 22:37

наверное да, ... но у меня большие Квен и Дипсик локально не запускаются - сравнивать не с чем - радуюсь прогрессу! :)

Почему Qwen3.6-27B лучше чем Claude? Железная коробка, которая научилась думать

rtrgdfb 20 мая в 22:33

Вы имеете ввиду deepseek-r1 или что-то другое?

Почему Qwen3.6-27B лучше чем Claude? Железная коробка, которая научилась думать

rtrgdfb 20 мая в 22:28

Не знал! Классная идея! Но насколько я понимаю, такой франкенштейн SolidWorks не потянет, в отличии от NVIDIA

Почему Qwen3.6-27B лучше чем Claude? Железная коробка, которая научилась думать

rtrgdfb 20 мая в 17:43

Да, вы правы! Для серьезной работы в режиме агента маленькие модели слабоваты.

Хотя должен признать Qwen3.6-27B меня очень приятно удивила. Как минимум ей можно сказать - Сделай landing-page для сайта фотографа и запусти его, чтобы я мог посмотреть - и она создает директорию, пишет код и запускает сервер, так, что вы можете его видеть в браузере и даже ходить по ссылкам, т.е. по-факту получаете маленький полностью рабочий сайт на HTML+CSS, причем с первого раза. Я также попробовал попросить модель сделать простое TODO на Flask и также с первого раза получил готовое работающее приложение, причем говоришь: добавь следующие поля - и она добавляет, добавь кнопку редактирования - добавляет, причем все работает с первого раза - меня впечатлило!
Ну и понятно, добавь в Git, сделай коммит, покажи diff, откати - все это тоже работает, я уж не говорю про поиск в интернете и Базе знаний.

Меня просто достали нестабильность работы, цена и лимиты Claude. Причем, ок, они хотят деньги, понятно! Но почему за эти деньги оно иногда работает очень хорошо, а иногда безбожно тупит и просто сжигает токены! Вот я и посмотрел в сторону локальных моделей, и оказалось, что они уже вполне рабочие, если понимать их возможности и ставить выполнимые задачи, ну или разбивать эти задачи на простые подзадачи.

Опять же, privacy, никто не контролирует результаты поиска, ну и uncensored модель можно запустить, что особенно важно если вы работаете в информационной безопасности, науке, или просто хотите получить не полит-корректную, а более-менее релевантную информацию

Почему Qwen3.6-27B лучше чем Claude? Железная коробка, которая научилась думать

rtrgdfb 20 мая в 16:49

я, к сожалению совершенно не разбираюсь в биологии, аминокислотах и ДНК, поэтому для меня довольно сложно разбить вашу задачу на шаги, которые дают корректные результаты.

Одно из основных преимуществ пайплайна (с моей точки зрения) состоит в том, что вы разбиваете сложную задачу на набор простых шагов. Т.е. если вы скормите сложный вопрос целиком - то даже самая умная модель может накосячить (и практически наверняка накосячит), однако если вы разобьете сложную задачу на последовательность простых действий, да еще и дадите модели инструменты (например регулярные выражения для проверки правильности записи цепочек, например справочник, не знаю, справочник аминокислот например, или описание каких-либо закономерностей, позволяющий сделать выбор определенного варианта), а на следующем шаге например попросите модель проверить правильности выбора, и если неправильно - повторить, и т.д. - то даже простая модель сделает значительно меньше ошибок и может дать очень хороший результат. Единственное - тут нужно различать пайплайны и скиллс.

Может быть мой пример не очень удачный, могу привести другой. Представьте, что вы пишете подробную инструкцию, как проводить эксперимент, вы прописываете методологию шаг за шагом. Теперь представьте, что вы попросили 2х абсолютно одинаковых людей провести этот эксперимент, и одному вы дали инструкцию, а другому - нет. Скорее всего тот, кому вы дали инструкцию выдаст лучший результат. Почему? - потому, что вы уже потратили умственные усилия, вы продумали основные шаги, продумали, как верифицировать результаты, дали инструменты и вы все это дали одному участнику эксперимента и не дали второму. Т.е. второму придется все это придумывать самому. Если экспертиза этого второго человека (в вашей области знаний) будет ниже вашей, то и результат будет заведомо хуже (не будем рассматривать вариант, что для решения вашей задачи он пошел, поучился в университете, поработал несколько лет в НИИ, а потом пришел и начал ее решать).
В тоже время для первого участника, которому вы дали инструкцию будет достаточно следовать вашей инструкции и не делать элементарных ошибок, и все будет хорошо. Мне кажется для этого люди и пишут инструкции (не всегда конечно).

Т.е. LLM и пайплайны это про автоматизацию, если вы например проводите сотни экспериментов, или анализируете сотни цепочек и вам надоела эта рутина - вы продумываете методику, пишите пайплайн для модели и она выполняет работу за вас, ну или сажаете аспиранта, и платите ему денежку.

Почему Qwen3.6-27B лучше чем Claude? Железная коробка, которая научилась думать

rtrgdfb 20 мая в 14:36

О да! 32K это просто пример. На самом деле зависит от того как настроить. Зависит от vRAM. Если например поставить:

--cache-type-k q8_0
--cache-type-v q8_0

ну и добавить например:

–-parallel 1 –-flash-attn on
То в 24GB можно и 120K впихнуть. Но если говорить про пайплайны, то вы на каждый шаг можете выставить то окно, которое вам нравится и ограничение размера становится менее чувствительным.

Почему Qwen3.6-27B лучше чем Claude? Железная коробка, которая научилась думать

rtrgdfb 20 мая в 14:17

Согласен, цены не гуманные. Но с другой стороны, пару лет назад модели, которые были на что-то способны, были значительно больше и одной 4090 было мало. А сейчас на ней уже можно запустить что-то более-менее нормальное.
Посмотрим, может еще через два года модели станут совсем маленькими :)