rtrgdfb May 20 at 12:54

Почему Qwen3.6-27B лучше чем Claude? Железная коробка, которая научилась думать

Easy

14 min

28K

Artificial Intelligence

Opinion

From sandbox

+30

127

Comments 127

schekinfs May 20 at 13:39

Согласен с рассуждениями. Прямо да. Единственное 4090 не у всех есть, только это. Облака дешевле пока, хотя все относительно.

jojozuka May 20 at 21:21

3090 для этой цели почти не хуже

riv9231 May 21 at 05:09

А можно и несколько дешманских v100 16GB, уже на валдберисе продаются. Стоит v100 16GB SXM2 в районе 12 тыс рубоей (подозреваю, что китайцы их килограммами как лом из датацентров получают), переходник на pci-e 2-5 тыс руб, водянка 3 тыс + радиатор + помпа иои воздугка 5 тыс.

Или собранеый комплект на авито за 20-25 тыс руб.

V100 32gb sxm2 версия стоит 60-80 тыс руб, но есть переходники на pci-e на 2 и 4 модуля сразу с обьединением nvlink. Получается эквиваоент почти видюхи на 64 или даже 128 gb vram по ещё приемлимым ценам

VO_Obsidian May 21 at 06:44

Забыли добавить, что nvlink на 2 карты это 20к сверху, на 4 - уже 50к, на 8 вообще под 100. Без него смысла под большие нейроники, которые в 16 не влезут, никакого

riv9231 May 21 at 11:15

Я может быть что-то не понимаю, поправьте меня, но запуская локально llm через ollama на 2х 3090 и одной A4000 я не замечал значительного трафика через pci-e (nvlink отсутствует). Наблюдал через nvtop.

По моему, nvkink нужен только для обучения.

PC-01 May 22 at 07:16

Ollama не использует синхронизацию между картами. Просто делит слои на разные карты. Это позволяет суммировать память, но не позволяет кратно увеличить производительность. А вот допустим vllm позволяет картам работать уже в других режимах параллельности когда синхронизация происходит постоянно. Это позволяет в теории линейно увеличивать производительность от количества карт. Но обмены и требования к задержкам - очень сильные. Тут то и решает nv линк. И надо ещё учитывать, что vllm под wsl из винды не позволяет работать нв линку. То есть надо vllm обязательно запускать на linux нативно.

riv9231 May 21 at 12:25

Кстати в дорогих переходниках, я видел pci-e комутатор, таким образом, если воткнуть туда 4х 32GB V100 получается в слот на материнки вы втыкаете эквивалент 4-х головой видеокарты сразу с VRAM 128ГБ по цене 60+40х4 ~ 250 К, если собирать самому (вспомнил, что видел у китайцев модули 32GB V100 по цене 40 тыс рублей)

Другой вопроc, что какие-то самые современные технологие с чипами Volta могут не работать, хотя встречал новости, что кийтацы како-то attention переписали под V100 и выложили на github и это драматически исправило ситуацию.

melodictsk May 21 at 10:46

3070м на 16гб стоит примерно 25к. Память под 500 гб/с, тдп 105 вт. Ноль нагрева, че ещё надо? Зачем эти заморочки с в100 на 16 гб? Так на ней ещё и играть можно. Использую такую в паре с 3090, ноль проблем. 40гб врам. В ллм чистая скорость у 3070м половина от 3090.

InvaderN May 20 at 14:10

Второе преимущество - оно не спорное, его просто нет в данный момент. Видеокарта 4090 - стоит более 200 тыс., 5090 - более 250 тыс. (а то и 300 тыс.). Запихнуть Qwen3.6–27B например в 5080 - не получится, там 16 Гб. Вывод, только самые топовые карты. Допустим я не хочу писать какой-то мега проект и следить за производством 24 часа, мне нужно сделать небольшой проект и подписки в 20 дол. вполне хватит для решения данной проблемы. И даже если я захочу вернуться к своему небольшому проекту через несколько месяцев - я отдам 20 баксов (при условии если тарифы не улетят в космос). Но тратить овер 200 тыс. на 5090 или 4090, учитывая что есть локальные модели типа Кими которые занимают более 100Гб (и дело явно идет к тому чтобы выкатить новый класс устройств для локальных ИИ) явно не стоит. Можно предположить или решат что-то с объемами памяти (благо заводов понастроили много) или с типом памяти или с новым типом железа для локальных ИИ и будет это в течение ближайшего года. Имхо, стоит подождать, чем бежать за 4090 или 5090, а пока использовать того же Cloude по подписке.

rtrgdfb May 20 at 14:17

Согласен, цены не гуманные. Но с другой стороны, пару лет назад модели, которые были на что-то способны, были значительно больше и одной 4090 было мало. А сейчас на ней уже можно запустить что-то более-менее нормальное.
Посмотрим, может еще через два года модели станут совсем маленькими :)

UFO landed and left these words here

logran May 21 at 07:40

Я лично не вижу уменьшения разрыва между топовым у дяди и тем, что можно запускать локально за $10k. Дяди бегут быстрее.

Пару лет назад была GPT-4.0 если мне не изменяет память. И это была здоровенная хрень в датацентрах.

На сегодняшний день локальные Qwen и Gemma могут больше, чем та GPT-4, но при этом влазят в одну потребительскую карту.

Речь об этом, а не о том что сегодняшние локальные 30b модельки идентичны сегодняшним коммерческим 900b моделькам.

P.S. справедливости ради последние модели GLM достаточно близки к Claude и вполне заменяют коммерческий большой Sonnet с весьма сопоставимым качеством и практически идентичным поведением в тулзах. А если Opus продолжит тупеть - есть шанс и его заменить.

inetstar May 26 at 07:53

Opus сильно отупел в последний месяц. Что-то там машрутизируют...

aldekotan May 20 at 22:51

А материнку с двумя слотами PCIExpress и две видеокарты подешевле - не проще?

vikarti May 21 at 04:20

А так тоже делают. Правда есть нюансы с распределением по картам (скорости PCIE все же мало) но если у нас 1 по сути клиент - почему бы и нет. Тут правда материнка нужна с несколькими PCIE слотами и лучше - не x1 + расположенными так что эти карточки влезут (а теперь вспомним что карты обычно - вовсе НЕ однослотовые).

gxcreator May 21 at 07:37

В режиме layer parallel скорость PCIE не важна.

aldekotan May 21 at 09:05

Я присматривался к старым мат.платам для crossfire или sli. Там как раз расстояние учтено, обычно

Wijey May 21 at 09:45

Есть варианты кроме видеокарт. Ryzen 395 со 128гб общей памяти, mac mini/studio - до 512Гб общей памяти.

riv9231 May 21 at 12:33

Теоритический предел t/s грубо посчитать можно через вес в байтах активных параметров модели деленный на пропускную способность памяти. У Ryzen же всего 2 канала DDR5 памяти. Давайте сравним: при 4800 мегатранзакций в секунду пропускная способность одного канала ~38,4 ГБ/с, а двух 76,8. RTX3090 как и V100 имеют скорость ~ 900ГБ/сек. Разница в 10 раз. А M4 Max судя по быстрому гуглежу 546 Гбит/с на M4 против 273 Гбит/с на M4 Pro - это уже существенно.

Wijey May 21 at 14:26

По тестам в AI-задачах этот райзен не отстаёт от нвидии. И кстати там не 4800, а 8000мт/с, LPDDR5X-8000, работает в четырёхканале и выдаёт 256Гбит/с.

https://mistertechentrepreneur.com/ryzen-ai-max-395-for-generative-ai-46f1b605d997

riv9231 May 21 at 21:43

Спасибо за уточнение. Я вообще-то болею за AMD просто понимаю, что 2 канала - это 2 канала, а 12 каналов - это 12 каналов. Привел расчеты чтобы каждый кто прочитает сразу прикинул, что mt/s может быть больше.

Прочитал ссылку по диагонали и не понял что с чем там сравнивается, как буд-то нет конкретики. GPU можно нагружать батчами, т.е. они могут поралельно генерировать для нескольких пользователей или для нескольких агентов и скорость палает не пропорционально увеличению количества потоков, уверен, что ryzen ai max сдуется.

Лично я пока сделаю ставку на V100 + NVLINK в количестве GPU от 8 до 16 на сервер. Но, как я написал, болею за AMD, надеюсь у них выстрелит. Во всяком случае? на 12-канальных эпиках скорость RAM уже совсем другая. Если там будут чипылеты как на ryzen ai max адаптированные для совместной работы с соотвествующим интерконектом, то получится GPU с теробайтами VRAM!

Wijey May 22 at 06:58

Ну это чисто домашнее компактное решение, с серверами на несколько GPU конечно не сравнится. Кстати, на днях Ryzen 495 анонсировали со 192Гб общей памяти, интересно будет посмотреть на мини-пк на нём, но цены наверно улетят уже к 5000$.

gerbert_MX May 20 at 23:41

процесс идет. еше пару лет назад для "игр с нейросетью" нужен был кластер как под биткоины, а сейчас можно мелкие модельки даже на телефоне запускать локально

я думаю что просто сделают ПК заточенные только под нейронки, что бы можно было процессор и планки памяти менять по необходимости. гибридные процессоры уже сейчас реальность (потому так маки зашли для запуска локальных моделей) просто эту тему вдавят в пол.

уже сейчас продаются у китайцев сборки чисто под нейронки, когда "видеокарты" заточены именно под нейронку и под них специальные материки которые вмешают только такие "видеокарты" плюс сетевой порт что бы общаться с миром

Mintavrus May 21 at 05:49

2 видеокарты RTX3090 по 60 тыс руб на авито полностью вмещают модель Qwen3.6–27B в квантовании q6/q8 при использовании максимального контекста 256k. А с помощью технологии MTP обеспечивается хорошая производительность в 50-55 токен/сек (1100+ токен сек чтение промпта) на данном сетапе. Не нужны никакие 5090 и 4090 за более чем 250k. Не нужны никакие kimi и прочие огромные модели. Qwen3.6–27B рулит безоговорочно (и позавчера анансирован Qwen3.7). 120 тыс руб - вот цена вхождения сейчас в мир локальных LLM.

StarJohn May 21 at 08:09

Карты есть. Вопрос по софту. Не подскажете, в чем запускаете? Я привык к oobabooga, там заведется?

debagger May 21 at 08:52

llama.cpp

aldekotan May 21 at 09:10

Не автор коммента, но от себя скажу, что по скорости понравились llama.cpp и её форк ik_llama.cpp на производительность

momentics May 21 at 12:36

для десктопа и комодити видео - llama.cpp рулит. Много настроек и много мануалов, а самое главное, много людей тыкающих ее, делающих форки, а так же всякую вкусную обвязку. Но у меня, например, больше (если так можно назвать) “серверный” вариант. Я стараюсь выжать все что можно из vLLM. Потому как у того железа на котором работаю, удобен именно vLLM + NCCL. Думаю в моем случае это более удобно.

Antra May 21 at 14:40

Если "серверный вариант" и Nvidia, не пробовали родные NIM? Более оптимизированные, наверное, должны быть. Хотя, конечно, всякие Q5 вряд ли запустятся

momentics May 22 at 19:06

Прошу прощения, но пропустил ваш вопрос. За огромным валом комментариев к статье, не увидел.

Итак, NIM - это обёртка, которая под капотом использует те же движки vLLM или TensorRT-LLM. Но конкретно в моем случае, она создает больше проблем, чем профита. Давайте посмотрим, что там к чему:

Плюсы

Готовая инфраструктура Если бы NIM запустился, был бы готовый OpenAI-совместимый API-сервер с метриками (Prometheus), логированием и механизмами безопасности без написания обвязки. Это профит, так как не надо это колхозить.
Управление кэшем NIM автоматически калибрует некоторые параметры движка под целевую модель. Это профит.

Минусы

Отсутствие официальной поддержки Volta В матрице поддержки сертифицированных NIM указаны карты архитектур Ampere (A100), Hopper (H100) и Blackwell. Запуск на Volta официально не поддерживается или потребует режима Model-Free NIM, который лишает продукт его главных преимуществ автоматической оптимизации. Это боль.
Проблема при гибридной топологии В моем случае, используется гибридная топология, где есть несколько NVlink и несколько PLX Switch на PICe x16 GPUDIrect P2P. NIM ожидает стандартную топологию. Как только появятся задержки в топологии, просто так что то изменить в алгоритмах NIM не получится. Тут нужен тонкий тюнинг. Это сильная боль.
Отсутствие поддержки FP8 на уровне архитектуры Основной прирост скорости в NIM достигается за счет проприетарных оптимизаций и FP8 квантования. Карты V100 физически не умеют работать с FP8. В режиме FP16 NIM теряет всю свою магию производительности и начинает уступать чистому vLLM, так как использует эмуляцию. Это сильная боль.

Antra May 23 at 05:44

Спасибо! Видимо действительно NIM имеет смысл только если очень "в тренде" и используешь актуальное сертициорованне железо NVidia в строго поддерживаемых конфигурациях.

Ни разу не универсально. Практически на те же грабли и я напоролся. Т.е. это не я не справился, нет смысла упираться, проще настроить vLLM

momentics May 23 at 10:18

В целом, оно может дать оптимизацию выше, чем возможно настроить руками на весь датацентр, гоняющий разные модели более низкоуровневыми методами. Если речь идет о задротском микро-датацентре, то индивидуальная настройка скорее всего может быть выше. Но опять же, со стоимостью поддержки\конфигурирования сильно больше, на ноду.

Так что я бы не списывал со счетов NIM. Это просто для дофига больших гомогенных конфигураций. Лично я на таких конфигурациях не видел его работу, но люди говорят, что прямо хорошо.

Mintavrus May 21 at 18:32

Сейчас самый лучший вариант для запуска Qwen3.6–27B - llama.cpp.

DooKoo2 May 21 at 08:39

Я брал RTX PRO 4000 Blackwell на 24Gb - уложился в 170.000, Qwen3.6-27B влетает с запасом в Q4_K_M, Qwen3.6-35B-A3B влетает впритык но на контекст в 128k хватает в q8 (без турбокванта, но с матрицами Адамара для KV - нативная фича llama.cpp).

Скорость на последних сборках llama.cpp подросла для MoE Qwen3.6-35B-A3B до 135 tps decode и prefill до 4500 tps. Хватает и доволен, работаю через свой тюненный qwen-code.

Mintavrus May 23 at 18:06

Qwen3.6-35B-A3B в квантовании q8 весит 37 гигабайт. Каким образом она у вас "влезает в притык" в 24 ГБ VRAM, да еще и с контекстом 128k?

entze May 21 at 09:16

+120 к уже имеющемуся железу. Но можно и за 130+ чистыми для Mac Mini c 32GB оперативы где примерно 24-26 будет под LLM. MLX даст 60 t/s.

За 240 это будет уже 64GB из которых под модель будет примерно 56. Кроме того mac несложно объединяются в кластера.

NinaNina89 May 21 at 11:46

И еще огнетушитель за пару косарей в эту смету заложить

Сборки из бу-шных печек в тесных корпусах имеют свойство делать красивый бабах

Mintavrus May 21 at 18:41

Вы какие-то свои стереотипы пытаетесь на других спроецировать. У RTX3090 отлично урезается power-лимит, при незначительном падении производительности. Кроме того, не понятно, зачем собирать сборки в "тесных корпусах", собирайте не в тесных

Dreams_and_magic May 21 at 14:04

Qwen3.7 уже есть в веб-чате, пока что в режиме "только текст"

entze May 21 at 14:17

Важно - то что доступно по API или в чате не обязательно будет доступной моделью с открытыми весами. Более того, думаю в ближайшем будущем (полгода - год) "халява" кончится и "средние" (27-31B) QWEN с Gemma перестанут развивать публично.

Dreams_and_magic May 21 at 14:23

Да, к сожалению, тенденции настораживают.

here-we-go-again May 21 at 15:41

Только электричество для этих карт выйдет дороже подписки на онлайн ИИ. Даже если сами карты бесплатно достались. Две 3090 это почти киловатт-час. Даже с ценами рф, я так понимаю круглосуточная работа двух этих карт выйдет около 100 долларов на электричество в месяц. При этом они не перекрывают возможности 100 долларового плана антропик ни по лимитам (которых хватит с головой на сопоставимый поток токенов) ни тем более по качеству генерации.

А с ценами на электричество в США и ЕС это вообще нет смысла затевать.

entze May 21 at 20:28

Лимиты все же есть и даже на 100$ наступают довольно быстро. Плюс привязка к решениям и кара за хаки (теперь вроде как как дают на -p но тоже не жирно). Еще проблемы с доступностью и вечно меняющимися условиями.

По прожорливости - ну можно 3090 заменит на Apple. Там 6W в простое и 140W (ноутбучный M Max) по загрузке.

Еще «за» то, что локальная сейчас это в попугаях Клод прошлого лета-осени. Не так уж и плохо.

И тут получается так - нужна круглосуточная молотилка с приемлемым качеством, компромиссом в окне, харнесс но при этом понятная и стабильная - локально.

Нужен лучший но рисковый и ограниченный по использованию инструмент - облачное.

entze May 21 at 20:34

Подумал - сценарии то гораздо шире.

Видео - точно пока лучше облако. Генерация изображений - зависит от объема и требований.

Распознавание голоса, изображений - это только API. Надо смотреть на объем и задачу. Если просто STT - локально. Нужен качественный обвес - realtime, спикеры, автофикс, резюме - облако.

here-we-go-again May 22 at 15:52

Так ведь лимиты быстро наступают с той скоростью с которой антропик токены отдает, а если сравнивать (как-то искусственно замедлить антропик) со 100 токе/с на двух 3090, то лимиты никогда и не настанут на 100 долларовом плане, а может и на 20 даже. Замена на эппл звучит разумно, но и цена ведь не как у бу 3090 уже будет.

entze May 24 at 08:03

В смысле искусственно замедлить? Там же вопрос не в скорости, а в количестве расходуемых токенов.

Я по Apple стоимость привел. И это стоимость готового оборудования, а не отдельных вих к которым еще надо купить полноценный десктоп с матерью, процом, охлаждением, памятью, диском, БП, корпусом. Даже если есть все что а руках и надо потратить 120 только на видео (приусловии что мини это уже 130 готовый), то для второго будет железо отдельным «десктопом» и видео. Мак же снова будет 130 полный и собираемый в кластер.

AngryEvilCookie May 23 at 08:19

Не проще blackwell 5000 48Гб взять одну? Она и жрет меньше. 120к рублей это в q3 что-ли запускать? И смысл в этом?

Mintavrus May 23 at 18:00

blackwell 5000 48Гб - это которая на Авито самая дешевая 410 тыс руб стоит? Вместо двух RTX3090 по 60 тыс руб, вы серьезно? На двух RTX3090 с суммарным объемом VRAM 48 ГБ Qwen3.6 27B отлично запускается в квантовании q8. А за 400 тыс руб вместо blackwell 5000 48Гб можно взять 6 штук RXT3090 с объемом VRAM 144 гигабайта.

AngryEvilCookie May 23 at 23:38

И куда вы их втыкать будете шесть штук эти?

Mintavrus May 24 at 05:20

На моей материнской плате (Supermicro X11DPI-NT) имеется 4 полноразмерных порта PCIE 16x и ещё 2 порта PCIE 8x, а также ещё 2 порта Oculink. У процессоров суммарно 96 линий PCIE. Воткнуть 6 видеокарт никаких проблем не представляет

NinaNina89 May 21 at 11:40

Математика бьется только если ты один разраб с пет-проектом. Как только бизнесу нужно гонять гигабайты логов через апи, эти 20 баксов превратятся в тысячи за токены...

Vfadeev May 22 at 07:23

Можно в облаке арендовать виртуальный сервак с нужными характеристиками для работы своей LLM. Я сам, когда делал заказной сайт лля размещения на хостинге reg.ru, осознанно выбрал решение на локально запущенных LLM, а не использование "большой" LLM. Сейчас вижу, что решение былт правилтнфм, ибо сайт остается доступным, несмотря на то, чть LLM с рф больше не работают ))).

Сейчас живу в ОАЭ ( эмигрировал из рф) , сам использую для разработки большие модели ( ибо, когда код сделан, зависимость от клауда или другой облачной LLM уже отсутствует ), но всегла отговариваю заказчиков от прибивания clouda, GPT, gemini и прочих коммерческих облачных LLM. Ибо, сегодня поставищик LLM есть, а завтра - это уже варианты )))

entze May 24 at 07:56

Серьезно считаете что миллиардные компании OpenAI и Anthropic завтра исчезнут? Вы видимо отговариваете потому что важна зависимость от лично вас, а не решение проблем.

Vfadeev May 24 at 09:02

Локально работающая нейронка способна решать большинство задач. Ну и программист уже не нужен, после выпуска сайта. Запуск скриптов дообучения с админской страницы сайта несложно реализовать.

Замечу, что программист для доработок сайта все авно понадобится, даже если сайт вызывает через API нейронку ( или владельцу сайта самому программистом становиться нужно, чтобы движок сайта менять ).

Dreams_and_magic May 20 at 14:13

Не пугайте людей контекстным окном в 32К :) На практике, если у вас быстро работает с окном в 32К, то и в 64К всё будет отлично, а с окном в 100К всё будет конечно же заметно медленнее, но с таким окном хоть можно дышать:)

rtrgdfb May 20 at 14:36

О да! 32K это просто пример. На самом деле зависит от того как настроить. Зависит от vRAM. Если например поставить:

--cache-type-k q8_0
--cache-type-v q8_0

ну и добавить например:

–-parallel 1 –-flash-attn on
То в 24GB можно и 120K впихнуть. Но если говорить про пайплайны, то вы на каждый шаг можете выставить то окно, которое вам нравится и ограничение размера становится менее чувствительным.

Romatio May 20 at 19:42

24GB - это ж только на контекст, да? Ище ж саму модель надо где-то хранить?

nidalee May 20 at 22:53

В 24 гигабайта влезает Q4_K_M и 81920 контекста, квантованного до Q8, проверял лично.

gerbert_MX May 20 at 23:43

ну для работы окно в 32К ни о чем

но еще пару лет назад такое окно было у флагманов и эти флагманы были потупее современных локальных на 32К

потому я думаю что к моменту как широко распространены станут локальные модели под 1К окно, сами модели уже будут вылизаны настолько что текущим флагманам с 1М и не снилось

Antra May 20 at 14:21

представьте себе, что у вас есть два студента, один умница и чемпион мира по шахматам, а другой - обычный студент. Вы им даете одинаковую задачу: нужно прочитать 40 статей в журналах, выписать из них все параграфы, касающиеся жизни колибри в районах крайнего севера. А далее написать саммари на 100 слов. Допустим у студентов одинаковая мотивация сделать работу хорошо и допустим они не устают. Кто сделает лучше? Очевидно, что если меньшая модель вообще может анализировать текст и выбирать релевантные тезисы (а Qwen3.6-27B может) - то результат будет сопоставимый.

С высокой вероятностью у обычного студента менее структурированное мышление, он не тренирован долго фокусироваться и т.д. и т.п. Для меня совершенно не очевидно, что оба студента сделат одинаково и за одинаковое время.

И хочу поделиться результатом сравнения моделей на RT3090 24GB VRAM. Давал задачу модели с Q4_K_XL и точно такой же но Q5_K_XL. Потом скармливал результат Gemini и просил оценить правильность.

Оба ответа были объявлены правильными, хотя на мой обывательский взгляд выглядели по-разному. Gemini прокомментировала это так:

Это классическая ситуация «биологического хаоса». Давай сначала разберем, как обе модели оказались правы, а потом перейдем к твоему впечатляющему результату с Unix-временем.
Как ответы в биологии могут быть разными, но «правильными»?
В биологических задачах всё зависит от того, как модель интерпретирует рамку считывания и направление.
Версия Q4 (Ser — Pro — Trp — Tyr): Она прочитала твою цепь ДНК «в лоб» как матричную. Она просто перевела буквы по правилам комплементарности и получила бесконечную цепочку. Это «школьный» уровень решения.
Версия Q5 (His – Gly – Ser – Stop): Она оказалась умнее. В процессе своего «размышления» (те самые 7800 токенов) она, скорее всего, прогнала цепочку через разные варианты и увидела, что если читать её определенным образом, в конце появляется стоп-кодон (UGA).
В биологии это считается более «правильным» ответом, так как синтез белка в природе не идет вечно — он должен где-то остановиться.
Поскольку рамка считывания сместилась, мутация из «сайлент» (которая ничего не меняет) превратилась в «миссенс» (которая меняет аминокислоту).
Итог: Q5 глубже «вникла» в биологический смысл и нашла скрытый в задаче стоп-кодон, который Q4 просто проигнорировала. Это и есть разница в «интеллекте» квантования.

P.S. Модели действительно часто валятся на вопросе типа "Unixtimestamp: 1774803105. Сколько это на человеческом языке?"

Интересно, заметите ли вы разницу, скормви разным моделям образцы с unixtimestamp.com

P.S. Если будет интересно, вот задача:

Задание по биологии для проверки логики синтеза:
Дана матричная цепь ДНК: 3'-ТЦА-ГГА-АЦЦ-АТГ-5'.
Построй на её основе иРНК (информационную РНК). Обязательно укажи направления 5' и 3'.
Используя справочные данные ниже, напиши последовательность аминокислот.
Представь, что в ДНК произошла мутация: во втором кодоне (ГГА) последний нуклеотид А заменился на Т. Как изменится последовательность аминокислот? Как называется такая мутация (миссенс, нонсенс или сайлент)?
Справочные данные (кодоны иРНК):
АЦЦ — Тре (Треонин)
АУГ — Мет (Метионин)
ГГА — Гли (Глицин)
ГГУ — Гли (Глицин)
УЦА — Сер (Серин)
АГТ — (ошибка, в иРНК нет Т)

rtrgdfb May 20 at 16:49

я, к сожалению совершенно не разбираюсь в биологии, аминокислотах и ДНК, поэтому для меня довольно сложно разбить вашу задачу на шаги, которые дают корректные результаты.

Одно из основных преимуществ пайплайна (с моей точки зрения) состоит в том, что вы разбиваете сложную задачу на набор простых шагов. Т.е. если вы скормите сложный вопрос целиком - то даже самая умная модель может накосячить (и практически наверняка накосячит), однако если вы разобьете сложную задачу на последовательность простых действий, да еще и дадите модели инструменты (например регулярные выражения для проверки правильности записи цепочек, например справочник, не знаю, справочник аминокислот например, или описание каких-либо закономерностей, позволяющий сделать выбор определенного варианта), а на следующем шаге например попросите модель проверить правильности выбора, и если неправильно - повторить, и т.д. - то даже простая модель сделает значительно меньше ошибок и может дать очень хороший результат. Единственное - тут нужно различать пайплайны и скиллс.

Может быть мой пример не очень удачный, могу привести другой. Представьте, что вы пишете подробную инструкцию, как проводить эксперимент, вы прописываете методологию шаг за шагом. Теперь представьте, что вы попросили 2х абсолютно одинаковых людей провести этот эксперимент, и одному вы дали инструкцию, а другому - нет. Скорее всего тот, кому вы дали инструкцию выдаст лучший результат. Почему? - потому, что вы уже потратили умственные усилия, вы продумали основные шаги, продумали, как верифицировать результаты, дали инструменты и вы все это дали одному участнику эксперимента и не дали второму. Т.е. второму придется все это придумывать самому. Если экспертиза этого второго человека (в вашей области знаний) будет ниже вашей, то и результат будет заведомо хуже (не будем рассматривать вариант, что для решения вашей задачи он пошел, поучился в университете, поработал несколько лет в НИИ, а потом пришел и начал ее решать).
В тоже время для первого участника, которому вы дали инструкцию будет достаточно следовать вашей инструкции и не делать элементарных ошибок, и все будет хорошо. Мне кажется для этого люди и пишут инструкции (не всегда конечно).

Т.е. LLM и пайплайны это про автоматизацию, если вы например проводите сотни экспериментов, или анализируете сотни цепочек и вам надоела эта рутина - вы продумываете методику, пишите пайплайн для модели и она выполняет работу за вас, ну или сажаете аспиранта, и платите ему денежку.

Antra May 20 at 17:15

Для меня тоже что силенсная, что миссенсная мутация - не из моей сферы. Я лишь хочу продемонстрировать что даже банальное изменение квантования с Q4 на Q5 радикально меняет качество размышлений и ответа. Что уж говорить о больших моделях, доступных только через API.

Если такое качество не требуется, делать простые шажки типа "поставь kubectl, kubeadm" действительно сможет даже небольшая модель. А вот "Разверни кластер Kubernetes с Calico CNI в non-island mode и установи BGP сессию с маршрутизатором" (и еще ряд требований и ограничений) - такое маленькая модель вряд ли потянет даже с кучей траблешутинга. И выделение "установи BGP" в отдельную задачу здесь не поможет.

Повторюсь - можно дать задачу джуну и сеньору. Если это "напиши тетрис" - любой сделает. Если же что-то сложное, где нужно сначала принять архитектурные решения - может у джуна и заработает после кучи правок, но код без слез не взглянешь. И поддерживаемым он вряд ли будет даже если будете строго идти по Spec Driven Development. Либо всю архитектурную работу выполнять самому, а на маленькую модель сбрасывать только рутину.

Возможно у вас сильно другая специфика. Я, к примеру, не понимаю, как разбить на мелкие простые шаги задачу "У меня не устанавливается BGP сессия с удаленным хостом, хотя netcat показывает что порт открыт, и с другим хостом сессия устанавливается без проблем. Удаленный хост чужой, к его логам доступа нет". Если бы я знал отгадку (лишний хоп, превысил установку ebgp-multihop), я бы дал задачу "проверь количество хопов". Но тогда бы мне не пришлось модель вовсе привлекать.

rtrgdfb May 20 at 17:43

Да, вы правы! Для серьезной работы в режиме агента маленькие модели слабоваты.

Хотя должен признать Qwen3.6-27B меня очень приятно удивила. Как минимум ей можно сказать - Сделай landing-page для сайта фотографа и запусти его, чтобы я мог посмотреть - и она создает директорию, пишет код и запускает сервер, так, что вы можете его видеть в браузере и даже ходить по ссылкам, т.е. по-факту получаете маленький полностью рабочий сайт на HTML+CSS, причем с первого раза. Я также попробовал попросить модель сделать простое TODO на Flask и также с первого раза получил готовое работающее приложение, причем говоришь: добавь следующие поля - и она добавляет, добавь кнопку редактирования - добавляет, причем все работает с первого раза - меня впечатлило!
Ну и понятно, добавь в Git, сделай коммит, покажи diff, откати - все это тоже работает, я уж не говорю про поиск в интернете и Базе знаний.

Меня просто достали нестабильность работы, цена и лимиты Claude. Причем, ок, они хотят деньги, понятно! Но почему за эти деньги оно иногда работает очень хорошо, а иногда безбожно тупит и просто сжигает токены! Вот я и посмотрел в сторону локальных моделей, и оказалось, что они уже вполне рабочие, если понимать их возможности и ставить выполнимые задачи, ну или разбивать эти задачи на простые подзадачи.

Опять же, privacy, никто не контролирует результаты поиска, ну и uncensored модель можно запустить, что особенно важно если вы работаете в информационной безопасности, науке, или просто хотите получить не полит-корректную, а более-менее релевантную информацию

Antra May 20 at 18:57

Да, в таком режиме это прекрасно. Задать вопрос в Home Assistant и получить ответ о состоянии датчиков и т.п. - локальные модели - милое дело. Даже фотку с камеры проанализировать и прислать в телеграм описание "подъехал автомобиль с номером ххх", "подошел мужчина в темной куртке..." - тут очень хорошо работает.

Для "стандартных" задач, особенно с не четко детерминированным результатом, локальные модели уже весьма хороши.

Claude Code использую активно, но с Z.AI моделями. За $36 купил подписку на целый год в прошлом сентябре, когда еще glm-4.5 только была. До сих пор не на радуюсь. Но сейчас существенно подорожало, в сентябре буду стоять перед выбором...

aladkoi May 21 at 04:44

Использую опус4.7 по подписке за 100$ в месяц. Никаких проблем с лимитами. Код пишется 24 часа в сутки. С локальными моделями качество полученного кода сравнивать даже нет смысла, как , впрочем, и с glm5

Vfadeev May 22 at 07:40

Генерит неплохо опус, но тоже, не без косяков...

Андроид приложение ( на базе java web view ) сгенерированное сразу не зааусаалось, руками косяки в ресурсах вычищал, хотя структуру классов создвл неплохую.

inetstar May 26 at 08:04

Такой же тариф. Сталкиваюсь с тем, что Опус на xhigh иногда тупит и не врубается в задачу

sergeym69 May 21 at 04:07

Ваш ответ точно верный, попробовал несколько раз с разными квантованиями, но получается другой ответ:
Q5_K_XL, Q4_K_M, Q5_K_M, Q6_K_L , можно прогнать и на Q8 только похоже будет такой же ответ

Сер — Гли — Тре — Мет Сайлент-мутация

А на ваш правильный ответ говорит

Скрытый текст

Нет, вариант His – Gly – Ser – Stop в данном случае неверен. Вот почему:

🔍 Почему ваш вариант не подходит:

Справочная таблица обязательна для использования. В условии явно даны кодоны иРНК и соответствующие им аминокислоты. Задача требует работать строго по этой таблице, а не по общему генетическому коду.
Кодоны из вашей таблицы точно совпадают с ДНК-последовательностью при замене Т → У:
- ТЦА → УЦА → Сер (по таблице)
- ГГА → ГГА → Гли (по таблице)
- АЦЦ → АЦЦ → Тре (по таблице)
- АТГ → АУГ → Мет (по таблице)
Ни один из кодонов в вашей последовательности не кодирует His или Stop:
- His (Гистидин) кодируется CAU или CAC
- Stop (стоп-кодон) кодируется UAA, UAG или UGAВ данном фрагменте этих триплетов нет ни в ДНК, ни в иРНК, ни при комплементарном прочтении.

📌 Важное уточнение по биологической терминологии:

В строгой биологии матричная цепь ДНК служит шаблоном для комплементарного синтеза иРНК (А↔У, Г↔Ц, Т↔А). Если бы мы следовали этому правилу, иРНК была бы 5'-АГУ-ЦЦУ-УГГ-УАЦ-3', что дало бы другую последовательность.
Однако в школьных/вузовских задачах, когда явно предоставлена таблица кодонов, совпадающая с ДНК-последовательностью (замена Т→У), это означает, что задача упрощена: вам нужно использовать именно данную таблицу. Иначе справочные данные были бы бесполезны.

✅ Итог:

иРНК: 5'-УЦА-ГГА-АЦЦ-АУГ-3'
Аминокислоты: Сер – Гли – Тре – Мет
После мутации (ГГА → ГГТ → иРНК ГГУ): аминокислота остаётся Гли
Тип мутации: сайлент-мутация (тихая)

Если у вас есть вариант ответа из методички или учителя, который отличается, пришлите его с пояснением, как строилась иРНК (по комплементарности или по таблице), и я помогу разобрать расхождения.

ChatGPT в Think mode говорит что будет
Серин — Пролин — Триптофан — Тирозин

Изменений в белке нет: сайлент-мутация.
Потому что в задании написано "матричная мутация"

-----
Если Qwen3.6-27B порасспрашивать то он поясняет

Если это школьный тест, ОГЭ/ЕГЭ или задание с жёсткой привязкой к данной таблице → ожидаемый ответ: Сер–Гли–Тре–Мет.
Если задача проверяет реальное понимание молекулярного синтеза или дана без таблицы → ваш ответ Сер–Про–Три–Тир абсолютно корректен. (это был ответ вашей Q4 версии)

И собственно, почему вы считаете что это НЕ верно ?

Antra May 21 at 06:09

Я в этом практически не разбираюсь, поэтому своего мнения у меня нет. Меня здесь удивило, что на оба варианта "большие" модели мне говорили ответ правильный. Но я то вижу, что они разные. Поэтому удивился.

Вот что Claude (Sonnet 4.6) ответил, когда я явно попросил решить "задачу с подвохом"

Ничего не понимаю. Картинка, чтобы ьаблицы не разъехались

Понятия не имею, насколько это верно. Но интересно :)

OlegGavrilov May 20 at 21:22

Мир не меняется, то майнеры у геймеров видеокарты отбирали, то начинающие ллм пользователи себе их пытаются отжать.

Делюсь действительно правильным и бюджетным подходом: находите любой системник с PCI-E 3.0 и примерно 16 Gb RAM (любой, хоть DDR3), туда ставите Tesla V100 4090mod (это когда v100 на pcie адаптере приколхоживают активное охлаждение от 4090), цена сейчас за такое около 70 т.р. на вб или авито. Поздравляю, у вас своя тихая и энергоэффективная машина для qwen 27B и 100к контекста! Не забываем про MTP, и легко получаем 50-60 ts и 600+ pp на актуальной llama.cpp.

Пожалуйста, перестаньте разгонять цены на бытовые видеокарты, спасибо.

rtrgdfb May 20 at 22:28

Не знал! Классная идея! Но насколько я понимаю, такой франкенштейн SolidWorks не потянет, в отличии от NVIDIA

logran May 21 at 07:56

16gb v100 с колхозом по цене 24gb 3090 без колхоза это мягко говоря "ну такое". И памяти меньше, и архитектура древняя, и тензорных ядер нет, и куда старая...

OlegGavrilov May 21 at 07:58

Здравствуйте, у v100 32gb VRAM HBM, всего доброго.

Damnt May 21 at 11:37

Сколько ей лет, что там с её поддержкой в той же llama.cpp или подобных? А дальше поддерживать планируется? Без ответа на эти вопросы о допустимости использования этого старья рассуждать некорректно

OlegGavrilov May 21 at 11:59

С таким тоном думаю в принципе рассуждать не корректно, надеюсь вы найдете на все вами поставленные вопросы ответы в гугле, удачи!

Damnt May 21 at 12:38

О как, т.е. когда по существу ответить нечего, то включаем режим обиженки? Или ваш "действительно правильный подход" не включает ответы на подобные вопросы?

momentics May 21 at 12:57

Ну есть проблемы. Но с ними можно жить. Самое главное, это то, что это архитектура 2017 года. CUDA 13.x помечает sm_70 как legacy, и современные фреймворки по умолчанию ориентируются на Ampere/Hopper. Для стабильной работы с V100 используется CUDA 12.8, которая сохраняет полную поддержку sm_70.

А вот самое неприятное, это хотя V100 и поддерживает FP16 и BF16 (эмулированный, работает медленнее), но FP8 и MXFP4 недоступны - это требует sm_80+. Т.е все требует квантизации при загрузке, либо оффлоад подготовка.

Есть еще один момент. Если воткнуть, например, одну карту, то это будет медленнее, с геммором квантизации, но позволит грузить модели за меньшие деньги. Это профит. Все сильно неоднозначно, если видео карт много. Чтобы в общем случае заставить это работать на все 100, нужно попотеть. Гибридная топология - это на любителя.

OlegGavrilov May 25 at 12:06

По фактам всё так, кроме вывода - конечно же никаких потений при использовании v100 нет, мэйнстримовый llama.cpp собранный под 70, ничего более делать, настраивать, квантизировать, не нужно.

momentics May 25 at 13:18

Не могу с вами согласиться.

Если речь идет о вообще запустить, то придется как минимум конвертировать современные типы квантов, скажем, FP8 или MXFP4, либо на лету (float 16 занимает время, а BF16 работает медленнее), либо офлоадом. Конечно, можно использовать и поддерживаемые типы квантов без конверсии.

Если речь идет об оптимизации скорости работы в гибридной топологии (а это гетерогенные V100 соединены разными по скорости линками - от NVLink, проходя через PCIe, далее IB/RDMA и заканчивая сетевыми узлами), то получите вывод выше. Независимо от согласия с ним, или от того, какая штука у вас под капотом.

jojozuka May 20 at 21:23

современные модели, влезающие в 24Гб это невероятно круто. Но когда есть с чем сравнивать - с большим Квеном, Дипсиком или Заем ... это уже не то...

rtrgdfb May 20 at 22:37

наверное да, ... но у меня большие Квен и Дипсик локально не запускаются - сравнивать не с чем - радуюсь прогрессу! :)

jojozuka May 21 at 05:56

у меня тоже :-) Но облачно то доступны. И вот когда работаешь с облачным Квеном, переходить на его локальный обрубок ... ну никак ...

cupespresso May 20 at 22:22

Qwen3.6-27B лучше или хуже чем DeepSeek?

rtrgdfb May 20 at 22:33

Вы имеете ввиду deepseek-r1 или что-то другое?

cupespresso May 21 at 08:25

Который находится по адресу chat.deepseek.com. Я не знаю, какая именно модель в режиме Instant работает.

rtrgdfb May 21 at 14:51

не сравнивал, в целом облачные провайдеры представляют более современные модели, локальные модели отстают примерно на год-полтора. Это значит они сегодня работают на уровне топовых моделей 2025 года. Что для локальной модели, которую можно запустить дома довольно неплохо. Плюсы и минусы я попытался изложить в статье.

jojozuka May 21 at 19:31

Разница как велосипед и самолёт.

DoctorCat92 May 21 at 03:36

Следующая статья будет - ллм в вашей голове лучше чем клод, т.к. она приватная, бесплатная и нет лимитов :)

poige May 21 at 04:00

и нет лимитов :)

— нет же, правда?

— …

rtrgdfb May 21 at 14:19

Следующая статья будет - ллм в вашей голове лучше чем клод, т.к. она приватная, бесплатная и нет лимитов :)

Неее - это же очевидно. Никто читать не будет! :)

mizugoji May 21 at 04:54

Мне вчера Qwen3.7-Max-Preview исправил уже готовый код с первого раза работающий, когда другие не могли этого сделать. Похоже там что то сделали интересное.

DeepSeek бесплатный из браузера не мог этого сделать, писал ерунду всякую, как будто гадал.

house2008 May 21 at 06:15

Наверное 3.6 max preview вы хотели сказать. Да, мощная модель, мой бенчмарк решает на уровне GPT и CC.

debagger May 21 at 09:02

Вы немного отстали ))

Скрытый текст

house2008 May 21 at 09:17

Спасибо за информацию) Жду на опенроутер тогда, отдельно заводить ключ для нее лень. Прошлая 3.6 max preview показала результат как CC и даже лучше. Уже руки чешутся попробовать)

house2008 May 21 at 05:12

Не знаю, зачем эта возня с локальными моделями (я про простые, а не большие корпоративные с большим бюджетом). Нам обычным пользователям сейчас деньги инвесторов дают уникальный шанс покататься на Феррари по цене Тойоты, пользуйтесь пока есть возможность, скоро этого не будет. Конечно если у вас бот который отвечает 24/7, несомненно это имеет смысл. Но если вы как большинство используете ИИ для работы во время рабочего дня, уж лучше на Феррари покататься)

пс. Сейчас запустил свой технический бенчмарк на этой модели Qwen3.6-27B (нужно сделать расчеты и построить график), она в половине случаев ошиблась в расчетах (график неверный) и делала всё гораздо дольше топовых. Я лучше куплю подписку чтобы получить верный результат сразу и быстро, чем сидеть разбираться в сгенером и искать где что пошло не так.

Mintavrus May 21 at 05:57

А если завтра не сможете купить подписку?

"запустил на модели Qwen3.6-27B" - общая ничего не значащая фраза, запустили с каким парамтерами, какими квантованием? Квантование q2 от q8 отличается как небо и земля. Промпт вашего технического бенчмарка можете скинуть?

house2008 May 21 at 06:11

А если завтра не сможете купить подписку?

Прям все все CC, GPT, Gemini, GLM ? Если такое произошло, значит это одна из малых проблем что происходит вокруг.

запустили с каким парамтерами

Из openrouter.ai. Qwen3.6-Plus справилась по точно этому же промпту с верным результатом и быстрее, а эта не смогла.

simonaya May 21 at 08:32

А если завтра не сможете купить подписку?

ответ не вам, просто дополню вашу фразу:

я уже "вчера и сегодня" не могу купить подписку за 20 баксов, мою карту мир не принимает ни какая из компаний.

попробовал через различных посредников, вышло дороже значительно чем 20 баксов так получил такое:

купленный perplexity через костыли

Поэтому для меня локальные модели наиболее удобны и просты в использовании. Да, для их работы требуется железо, качество уступает подписочным, но я понимаю что она работает вчера, сегодня и завтра.

И, к тому же, качество локальных моделей улучшается если не каждый квартал, то год к году точно. Мои задачи локальные модели выполняют.

aldekotan May 21 at 09:33

Зачем выбирать между Феррари и Тойотой, если можно кататься на обеих?) Для меня этот выбор именно так выглядит. Пока доступно, пользуюсь тем, что доступно из корпоративного, попутно настраивая и разбираясь в том, что будет доступно всегда из локального.

Так не придётся мучительно перестраиваться, если или когда корпы отрежут доступ по тем или иным причинам. А причин вагон и маленькая тележка. Рост цен на электроэнергию, политика, нехватка мощностей и отключение нижнего ценового сегмента - когда оставляют только самых богатых потребителей…

house2008 May 21 at 09:56

Согласен) но есть нюанс:

если или когда корпы отрежут доступ по тем или иным причинам.

К этому времени тойота в гараже уже заржавеет и будет неактуальна. Смотрите, через год-два ИИ дорожает в 10 раз (логично что им нужно начинать себя окупать), в опен сорсе к тому моменту будут хорошие модели, но им уже нужно будет 100 Гб, соответственно тойоте в гараже нужен существенный апгрэйд, а возможно и дешевле выкинуть всё и собрать с актуального на тот момент железа.

Но опять же это всего лишь мои мысли и пока есть возможно не тратить деньги на свою тойоту, а взять по этой цене в аренду Феррари, я возьму второе, живем один раз, когда еще передовые модели будут так доступны не ясно.

aldekotan May 21 at 12:04

Не могу с такой же уверенностью утверждать, что модели продолжат расти в размерах в ближайшие годы. В основном из-за цен на память. Спрос на локальные модели растёт и я вижу в этом параллели с облачным геймингом, который так и не взлетел, насколько мне известно. Также растёт спрос на повышение эффективности использования памяти, как у приложений в целом (на фоне дефицита таковой), так и у нейросетей. Выход той же геммы - очень удивил качеством ответов с учётом её размера.

rtrgdfb May 21 at 15:45

Не знаю, зачем эта возня с локальными моделями (я про простые, а не большие корпоративные с большим бюджетом). Нам обычным пользователям сейчас деньги инвесторов дают уникальный шанс покататься на Феррари по цене Тойоты, пользуйтесь пока есть возможность, скоро этого не будет. Конечно если у вас бот который отвечает 24/7, несомненно это имеет смысл. Но если вы как большинство используете ИИ для работы во время рабочего дня, уж лучше на Феррари покататься)

ну например я очень люблю использовать локальные модели для проведения исследований в интернете.

Т.е. когда ищешь какую-либо информацию в интернете можно конечно открыть пару сотен сайтов вручную, прочитать все страницы, проанализировать, обобщить и написать ресеч вручную - но это займет пару недель, если только этим заниматься.

Если использовать для этого топовую модель Google, Anthropic, или OpenAI - она:
1. очень быстро съест лимиты, и предложит подождать с другими задачами
2. неизвестно как она ищет, что она на самом деле находит, и какую информацию она не включает в отчет по причине, того, что пользователю знать неположено (все облачные модели censored)

Если же использовать локальную модель - я могу настраивать поиск как мне удобно, сохранять источники локально (если захочу), задавать дополнительные задачи и аспекты, которые модель должна выполнить и проанализировать. Ну и запустил ее - она пашет, а сам пошел работать, вечером пришел - почитал, что интересного она накопала.

пс. Сейчас запустил свой технический бенчмарк на этой модели Qwen3.6-27B (нужно сделать расчеты и построить график), она в половине случаев ошиблась в расчетах (график неверный) и делала всё гораздо дольше топовых. Я лучше куплю подписку чтобы получить верный результат сразу и быстро, чем сидеть разбираться в сгенером и искать где что пошло не так.

попробуйте дать модели инструменты, например возможность использовать Python. Посмотрите в сторону Open-Terminal. Там есть пакеты для анализа данных и вы можете прописать какие и в каких случаях модель должна использовать. Попробуйте написать Skills - как и какие инструменты использовать когда вы просите построить график или проанализировать csv файл. Топовые модели вовсю используют инструменты.

house2008 May 21 at 16:39

попробуйте дать модели инструменты, например возможность использовать Python.

Ничего не понял. Я дал задачу Qwen3.6 Plus и она решила задачу, переключил на Qwen3.6-27B, промпт не менял, окружение не менял, равные условия. Или вы имеете ввиду что младшей версии нужно явно говорить тут используй питон, а тут руби, а старшая модель сама всё понимает ?

rtrgdfb May 22 at 01:43

я имею ввиду, что инструменты которые позволяют решать например математику или использовать скрипты одинаково полезны для любой модели, хоть умной хоть не очень.

Очень простой пример: модель сгенерила файл в формате marcdown (например отчет или заметку), а мне этот файл нужен в формате html (например). Я хочу сказать модели - конвертируй в html. Что произойдет если я это скажу? - скорее всего даже умная модель начнет пыхтеть переписывая файл в html. Этот процесс может занять несколько минут (зависит от размера файла), ну и результат может быть не совсем корректный (зависит от размера файла и от модели). Но вместо этого я могу дать модели скилл: прописать в отдельном файле например так:

description: Use whenever the user asks to convert a document from one format to another (markdown to html, md to pdf, html to docx, etc.). Always use pandoc, never rewrite.
Example:pandoc [source] -o [output]

после этого каждый раз, когда я буду просить модель преобразовать файл в нужный формат модель будет мгновенно запускать pandoc соответственно преобразование будет произведено мгновенно и без ошибок.

Написать и добавить любой скилл сейчас просто, если возникают вопросы - всегда можно спросить модель или ChatGPT. Можно использовать питон, регулярки, html - шаблоны документов, да все что душе угодно и всегда получать предсказуемый результат.

house2008 May 22 at 04:42

Спасибо за ответ) Но с вами тяжело вести беседу, я вам про одно, вы мне про другое)

Danxia May 21 at 05:20

Вечером тупит это сша просыпается и начинаеются активности?

OlegMax May 21 at 08:38

стабильность и прогнозируемую стоимость владения локальных моделей

Если вы используете локальную модель вы имеете значительно большую устойчивость процессов

У вас всегда есть наготове сумма для покупки сломавшейся карты, а лучше сама карта в ЗИП?
Вы учитываете амортизацию карты в своих прогнозах стомости владения или просто скрестили пальцы?

rtrgdfb May 21 at 14:42

У вас всегда есть наготове сумма для покупки сломавшейся карты, а лучше сама карта в ЗИП?Вы учитываете амортизацию карты в своих прогнозах стомости владения или просто скрестили пальцы?

Если для бизнеса - то конечно да - лежит на складе (хотя конечно не 100% бэкап)

Если для меня лично - я не покупал карту для запуска LLM, она у меня была для других задач (SolidWorks, графика и проч). Но если погорит - пойду и куплю новую, т.к. нужна для работы.

Касательно моего домашнего сетапа - пока я просто поставил две виртуалки (QEMU/KVM) одну для графики и дизайна, вторую для экспериментов с LLM и прокинул туда имеющуюся 4090. Работает хорошо, бэкапится замечательно, разворачивается на новом железе ну примерно за час. Покупать новое железо пока не собираюсь.

3cky May 21 at 09:21

Я периодически тестирую на OpenRouter разные модели очень простым тестом - прошу их сыграть в текстовую адвенчуру Colossal Cave. Qwen3.6-27B этот тест, увы, провалил с треском - делает несколько ходов невпопад, потом выходит по QUIT. Даже не знаю, в чем причина. Claude в этом тесте была всегда лидером, и только ChatGPT-5.5 формально сумела ее обойти по очкам, но в ней порой наблюдаются какие-то проблемы с рассуждениями.

riky May 21 at 14:09

это не приговор. надо тестировать на своих реальных задачах. одному пододйет, другому - нет. ну и цена тут тоже решает.

kukovik May 25 at 18:18

Именно. Qwen3.6 тут очевидный лидер -- рабочая лошадка. Ему не до игр. Довольно быстро понимает, что его попросили о ерунде и выходит из игры.

NinaNina89 May 21 at 11:30

Пайплайны реально спасают ситуацию для узких рутинных задач. Проще натравить кучку мелких агентов на локальную базу знаний, чем пытаться заставить огромную модель не галлюцинировать

dkfbm May 22 at 08:29

Тут явное противоречие: подписки становятся дорогими из-за высокой стоимости железа – так давайте каждый будет покупать это железо сам. При том, что оно явно будет использоваться менее эффективно – только в рабочие часы, тогда как у них оно крутится (и зарабатывает деньги) круглые сутки.

Контекстное окно в 32К – вообще смешно. У меня полмиллиона токенов на задачу – обыденность. Да, я использую пайплайны, параллельных агентов и прочие методы повышения эффективности. Всё равно 32К – это ни о чём, уровень hello world.

rtrgdfb May 22 at 14:40

Сильно упрощая - иметь собственное орудие производства и возможность изготовить все что нужно по себестоимости часто бывает выгоднее чем платить монополисту любую цену, которую он попросит. Хотя конечно, стоимость владения и амортизация.

Это также как: "Зачем вам иметь локальный компьютер и возможность устанавливать то, что вы хотите, когда мы лучше знаем что вам нужно, пользуйтесь нашими мэйнфреймами!" Ну или хотя-бы нашими закрытыми системами (привет Apple и Google Android). С персоналками - не получилось, там относительная свобода, с телефонами - получилось - доступ к устройству и его возможностям сильно ограничен (практически монополия). Интересно, что будет с доступом к разуму?

Контекстное окно 32К - было приведено как пример. В пайплайне вы можете задавать размер окна для каждого шага, нужно поставили 8К, нужно поставили 120К, нужно включили thinking mode (для анализа или чего-то сложного), для следующего шага не нужно - выключили (чтобы ускорить процесс). В llama.cpp можно вообще –reasoning-budget задать, например 2048, или еще меньше, чтобы не слишком долго думал.
В результате некоторые шаги, например где нужно классифицировать что-то относительно простое модель может выполнять за 0.3 - 0.4 секунды, ну а на некоторых может и на пару минут задуматься.

dkfbm May 22 at 14:54

Это также как: "Зачем вам иметь локальный компьютер и возможность устанавливать то, что вы хотите, когда мы лучше знаем что вам нужно, пользуйтесь нашими мэйнфреймами!"

Так и используем – всё возвращается на круги своя. Я когда модели тренирую, покупаю у них машинное время. Гораздо выгоднее – мне не так часто нужно, стоит это грубо $1/час, а купить какую-нибудь H200 – уже $60,000.

Контекстное окно 32К - было приведено как пример.

Возможно, просто тут порядок цифр буквально из разных вселенных. Мне действительно нужно контекстное окно в сотни тысяч – и не сказал бы, что мои задачи так уж уникальны, любой достаточно сложный проект потребует примерно того же. Можно ли это получить в домашних условиях, и какой при этом будет производительность – я не знаю. Скорее нет, чем да.

rtrgdfb May 22 at 17:41

Вы безусловно правы! Если тренировать - нужны совершенно другие ресурсы, и вы платите именно за эти ресурсы а не за ответы модели, это выгоднее чем покупать H200 для разовых задач.

Что до контекстного окна - мне сложно судить, какие задачи вы решаете, иногда нужно действительно очень большое окно и соответственно большая vRAM. Но давайте прикинем, что можно получить дома, с 24GB и той-же Qwen3.6-27B. Как уже писали выше в 24GB можно впихнуть 120К окно. Да, не у всех есть RTX4090, но как уже обсуждали выше есть вполне адекватные альтернативы, если заморочиться то можно и на 230К окно организовать. Теперь смотрим:

Мне действительно нужно контекстное окно в сотни тысяч ... любой достаточно сложный проект потребует примерно того же.

Любую достаточно сложную задачу можно разбить на несколько более простых подзадач. Т.е. ваш проект скорее всего можно разбить, ну допустим на 5 подзадач (а скорее всего можно и на 10-15). Каждая подзадача может иметь окно до 120К (это примерно 200-300 страниц А4) и это на один шаг. Допустим для простоты расчета, что ваша задача разбита на 10 шагов (каждый вмещает 120К токенов), вот вам и 1млн 200К токенов на задачу (рассчет, анализ данных, поиск информации, да что угодно!).
Единственное ограничение - простой чат (он все еще ограничен 120К).
Но и тут вы можете немножко схитрить и получить значительно больше 1 млн. - Вы можете сделать относительно простой пайплайн, который будет состоять из 2х шагов. На первом он допустим будет анализировать N последних сообщений и понимать, чего вы хотите, а на втором отвечать на ваш вопрос (не загружайте в первый шаг все сообщения, загрузите только N последних, тогда он никогда не выйдет за пределы окна). Каждый шаг имеет лимит 120К, и каждый раз когда вы задаете вопрос в чате - пайплайн запускается заново. Таким образом он никогда не закончится и вы легко наберете миллион а то и больше. Лимит модели - тут уже особо не играет, т.к. при каждом вопросе ваш пайплайн запускается заново и вы опять имеете ваши 120К токенов для того, чтобы модель поняла, чего вы хотите, и 120К чтобы ответила на вопрос. (а можно еще шаги добавить чтобы подтянула и проанализировала документы, поискала информацию в интернете, валидировала результаты, написала код, да все что душе угодно! и каждый шаг 120К токенов)

Решается дома за один вечер.

dkfbm May 22 at 19:55

Любую достаточно сложную задачу можно разбить на несколько более простых подзадач. Т.е. ваш проект скорее всего можно разбить, ну допустим на 5 подзадач

Я умею в декомпозицию, поверьте на слово. Но когда имеешь дело с несколькими потоками параметризованных событий, то чтобы понять, к какому результату они приведут, держать в голове (контексте) приходится их все.

rtrgdfb May 22 at 20:15

Мне действительно нужно контекстное окно в сотни тысяч ... любой достаточно сложный проект потребует примерно того же.

Кстати, по поводу длинных чатов - можно не заморачиваться и использовать фильтры: https://docs.openwebui.com/troubleshooting/context-window/
а можно и пайплайны и фильтры, вместе.

dkfbm May 22 at 20:42

Кстати, по поводу длинных чатов

Не мой случай. За исключением каких-то мелочей, я всегда формулирую задание в виде .md и уже его отдаю в работу. Так задание получается значительно точнее, после того, как сам его несколько раз просмотришь, почти никогда не остаётся неясностей или упущенных деталей. Так что чат по большей части сводится к `/brainstorm @very-complex-task.md`.

rtrgdfb May 23 at 00:21

Так это вообще замечательно!
Пусть модель на первом шаге разобьет ваше задание на шаги (если вы сами его не разбили) а потом брэйнстормит каждый шаг: предлагает идеи собирает информацию по каждой идее, анализирует, делает выводы, критикует, корректирует, опять ищет инфорацию и т.д. и так идея за идеей. И на каждый отдельный шаг 120К токенов. Если нужно перелопатить много сайтов или литературы - разбейте на меньшие шаги, чтобы загружало и анализировало информацию кусками, допустим по 10 страниц за раз, ну или по 20 (нужно смотреть сколько влезет). Ну и пусть параллельно составляет отчет (создает файл и дописывает в него идеи, источники, результаты анализа). В конце цепочки можно будет запустить анализ этого файла и сделать выводы.

dkfbm May 23 at 10:45

Пусть модель на первом шаге разобьет ваше задание на шаги (если вы сами его не разбили) а потом брэйнстормит каждый шаг: предлагает идеи собирает информацию по каждой идее, анализирует, делает выводы, критикует, корректирует, опять ищет инфорацию и т.д. и так идея за идеей.

Так оно и происходит. Вот прямо пока мы тут всё это обсуждали, например. Задача была в принципе несложная: добавить экран к мобильному приложению.

Сначала дизайн. Сам я дизайнер никакой – если бы речь шла о корпоративном проекте, разумеется, этим бы занимался профессионал. А поскольку проект мой личный, мы прошли 13 итераций пока получилось то, что меня устроило. Получилось неплохо, кстати – и подозреваю, "токены" профессионального дизайнера мне обошлись бы сильно дороже.

Далее, технические требования. Разумеется, мне нужно, чтобы все решения, принятые в процессе обсуждения дизайна/UX учитывались – соответственно, та же сессия, тот же контекст. Плюс туда же добавляется новое: страница не очень сложная, но она взаимодействует с тремя модулями того же приложения, обрабатывая потоки данных от них. Ну и страницу сеттингов пришлось изменить – добавить туда параметры для новой, да на домашнюю добавить кнопку доступа. Соответственно, контекст расширяется.

Согласовали требования, дальше план реализации. Он его разбил на 11 этапов (Вы так хотели?) – разумеется, опять в том же контексте.

Ну и наконец, собственно реализация – опять же, контекст сохраняем. Он запускает несколько параллельных агентов на каждую задачу, через часик какой выкатывает готовый код.

Дальше дебаг. Дизайн превью – это хорошо, но перенести его в реальный код не всегда просто. У меня чуток графики, которую нужно из .svg перенести в Painter. Использовать статический ассет нельзя – графика динамическая. С первого раза у него не получилось – наверное, примерно с десятого. Но таки получилось – в результате я примерно за рабочий день добавил неплохую фичу, от начала до конца. А вот в плане контекста получилось так:

Можно было затратить меньше? Наверное, можно запускать /clear после каждого этапа – но тогда гораздо больше шансов, что в какой-то момент он потеряет контекст и уйдёт не туда. На токенах тоже можно сэкономить: например, план реализации – это фактически готовый код, можно даже не отдавать ему, а просто самому пройти по шагам плана, создавая файлы и копируя в них код. Но мне лень – зачем, если он это сделает в разы быстрее?

То же самое с выбором между локальным сетапом и подпиской. Локальный может быть дешевле (в частности, если пригодное железо уже есть), но значительно медленнее и не в состоянии держать большой контекст. Для меня сейчас выбор очевиден – стоимость сервиса приемлемая, особенно если рассмотреть как альтернативу реализацию человеком. Вот эта вышеописанная страница – примерно день работы дизайнера и (оптимистично) 3-4 дня хорошего программиста. Умножим на стоимость человеко-часа и видим, что оно того стоило.

rtrgdfb May 25 at 14:35

Согласен, в такой ситуации возможно Opus лучше.

Позволю себе привести пример, может он вам пригодится. (я последние 3-4 недели очень активно тестирую возможности локальных моделей, на примере Qwen3.6-27B и открыл для себя много нового, а так тоже использовал Opus)

Есть у меня длиннющая портянка кода, которую Opus написал примерно пол-года назад (4846 строк) код работает, задачу выполняет. Но хорошо бы было подключить этот код к API, чтобы он данные мог дергать и инструменты использовать. Сам я этот код не писал, просто пролистал и честно сказать охоты разбираться, да и времени у меня нет. Скажу только, что разбить этот код на несколько файликов поменьше невозможно, системе нужен 1 файл который включает все. Ну в общем решил я скормить эту задачу Qwen и Opus и посмотреть что получится.

С опусом пришлось минут 40 поспорить, т.к. он тупил, говорил что без API код лучше и что это вообще невозможно. Потом я его "уговорил", он вроде все понял и запыхтел.

С Qwen - все было немного проще. Она сразу согласилась все сделать как я прошу. Но перед редактированием кода я попросил ее сделать следующее:
1. Инициировать Git и закоммитить текущее состояние (чтобы она могла откатиться если что.
2. Создать файл TODO в который сохранить информацию о том, что она собирается сделать, а именно:

Найти и проанализировать API требуемое для решения задачи и имеющийся код, найти, как должен быть изменен код для решения поставленной задачи, сколько изменений, точки изменения, сниппеты для каждого изменения, порядок изменения - все сохранить в файл TODO. (было найдено 26 точек в которых код должен быть добавлен или изменен)
Проанализировать возможные риски, определить тесты которые должны быть выполнены - все тоже в TODO
Составить чек-лист всего того, что должно быть проверенно после завершения процесса - тоже в TODO

3. Писать все изменения в log файл.

Qwen подумала и составила список. Это заняло примерно 15 минут (на все). Далее я попросил ее выполнить изменение кода. Изменение со всеми тестами заняло примерно 10 минут. Код оказался рабочий но подключение к API с первого раза не удалось, я сам немного подумал и понял, что на сервере используется порт нестандартный для этого API. После изменения порта все заработало. (т.е. фактически с первого раза, т.к. ошибка была моя)

Контекстное окно модели было 120000 токенов. Использовался стандартный фильтр с параметрами:

Default Budget Tokens 118К
Response Headroom Tokens: 84К

Максимальный расход токенов на чтение составил 76К

С этими установками, модель помнила примерно 14 последних сообщений чата (собственно потому я и заставил ее сначала составить TODO и писать каждую выполненную операцию в лог-файл (вариант долговременной памяти)

Что до опуса - его код с первого раза не заработал и упал с ошибкой чтения входных данных. Т.е. он сломал что-то и не позаботился протестировать и исправить ошибку.

Кстати на счет вашей статистики - львиную долю занимают Messages - 400k токенов. Контекст безусловно важен, но если заставить llm сначала составить небольшой файлик в котором суммировать то, что должно быть сделано, то его можно и обрезать до 7-8 последних сообщений. И для модели и для вас сильно проще: 20 - 30 страниц ТЗ вместо 400к токенов чата, и расход токенов существенно меньше. (я понимаю, что вы используете ТЗ и файлы, которые нужны модели для разработки, в данном случае под ТЗ я скорее понимаю план изменения кода (что будет сделано, где, как, как протестировано и т.п.)

Но вообще, каждый выбирает инструмент, который удобен именно ему, так-что я ничего не навязываю, просто поделился любопытным наблюдением.

dkfbm May 25 at 19:38

львиную долю занимают Messages - 400k токенов. Контекст безусловно важен, но если заставить llm сначала составить небольшой файлик в котором суммировать то, что должно быть сделано, то его можно и обрезать до 7-8 последних сообщений.

Понятия не имею, что он считает за сообщения в этой статистике. Я же описывал свой процесс: там именно что чата минимум. Весь обмен как раз через файлы: я пишу задание, он мне предлагает спецификацию (сначала уточняет то, что сформулировано недостаточно конкретно, а иногда и свои идеи предлагает – тут чат есть, но в основном в форме моих ответов на его вопросы, чаще всего просто выбор из предложенных вариантов); по согласованной спецификации он пишет план реализации (это тоже документ), я просматриваю, при необходимости корректирую. И уже когда все эти этапы пройдены и задокументированы – пишется собственно код. Собственно, это более или менее стандартная цепочка /superpowers – мне подходит, чаще всего ей и пользуюсь. И конечно, да: каждое сколько-нибудь значимое изменение делается в отдельной ветке гит.

Derrvish May 22 at 13:19

У меня qwen3.6-27B Q8/Q6 в локальном использовании. Разные версии. Могу сказать, что ведёт она себя намного стабильнее и дисциплинированнее, чем Gemini Pro, и даже Ultra. Не теряет суть, внимания, даже в контексте 150 000 токенов. Ведёт себя абсолютно предсказуемо в отличие от Gemini. При написании кода ошибается крайне редко. Связка Qwen local + Gemini работает намного эффективнее, чем один только облачный ИИ.

ga661go6 May 23 at 22:17

Можно нубский вопрос — почему никто не обсуждает запуск локальных моделей на ryzen ai Max 395+ с 128 гб unified memory?

Antra May 24 at 05:13

Что влезло в 96GB, то работает. Нечего перераспределять между RAM и VRAM.

Чего там обсуждать-то? :)

(разумеется, скорость DDR5 ниже, чем даже RTX 3090)

Mintavrus May 24 at 05:33

А какие модели вы хотите запускать на 128 гигабайтах? Сейчас среди малых моделей самая лучшая - qwen3.6 27b, ей оптимально 48 гигабайт VRAM (квантование q8, большой контекст), то есть на двух видеокартах rtx3090 (~120 тыс руб) будет гораздо выше производительность чем на ryzen ai Max 395+