Pull to refresh

Comments 110

Согласен с рассуждениями. Прямо да. Единственное 4090 не у всех есть, только это. Облака дешевле пока, хотя все относительно.

3090 для этой цели почти не хуже

А можно и несколько дешманских v100 16GB, уже на валдберисе продаются. Стоит v100 16GB SXM2 в районе 12 тыс рубоей (подозреваю, что китайцы их килограммами как лом из датацентров получают), переходник на pci-e 2-5 тыс руб, водянка 3 тыс + радиатор + помпа иои воздугка 5 тыс.

Или собранеый комплект на авито за 20-25 тыс руб.

V100 32gb sxm2 версия стоит 60-80 тыс руб, но есть переходники на pci-e на 2 и 4 модуля сразу с обьединением nvlink. Получается эквиваоент почти видюхи на 64 или даже 128 gb vram по ещё приемлимым ценам

Забыли добавить, что nvlink на 2 карты это 20к сверху, на 4 - уже 50к, на 8 вообще под 100. Без него смысла под большие нейроники, которые в 16 не влезут, никакого

Я может быть что-то не понимаю, поправьте меня, но запуская локально llm через ollama на 2х 3090 и одной A4000 я не замечал значительного трафика через pci-e (nvlink отсутствует). Наблюдал через nvtop.

По моему, nvkink нужен только для обучения.

Ollama не использует синхронизацию между картами. Просто делит слои на разные карты. Это позволяет суммировать память, но не позволяет кратно увеличить производительность. А вот допустим vllm позволяет картам работать уже в других режимах параллельности когда синхронизация происходит постоянно. Это позволяет в теории линейно увеличивать производительность от количества карт. Но обмены и требования к задержкам - очень сильные. Тут то и решает nv линк. И надо ещё учитывать, что vllm под wsl из винды не позволяет работать нв линку. То есть надо vllm обязательно запускать на linux нативно.

Кстати в дорогих переходниках, я видел pci-e комутатор, таким образом, если воткнуть туда 4х 32GB V100 получается в слот на материнки вы втыкаете эквивалент 4-х головой видеокарты сразу с VRAM 128ГБ по цене 60+40х4 ~ 250 К, если собирать самому (вспомнил, что видел у китайцев модули 32GB V100 по цене 40 тыс рублей)

Другой вопроc, что какие-то самые современные технологие с чипами Volta могут не работать, хотя встречал новости, что кийтацы како-то attention переписали под V100 и выложили на github и это драматически исправило ситуацию.

3070м на 16гб стоит примерно 25к. Память под 500 гб/с, тдп 105 вт. Ноль нагрева, че ещё надо? Зачем эти заморочки с в100 на 16 гб? Так на ней ещё и играть можно. Использую такую в паре с 3090, ноль проблем. 40гб врам. В ллм чистая скорость у 3070м половина от 3090.

Второе преимущество - оно не спорное, его просто нет в данный момент. Видеокарта 4090 - стоит более 200 тыс., 5090 - более 250 тыс. (а то и 300 тыс.). Запихнуть Qwen3.6–27B например в 5080 - не получится, там 16 Гб. Вывод, только самые топовые карты. Допустим я не хочу писать какой-то мега проект и следить за производством 24 часа, мне нужно сделать небольшой проект и подписки в 20 дол. вполне хватит для решения данной проблемы. И даже если я захочу вернуться к своему небольшому проекту через несколько месяцев - я отдам 20 баксов (при условии если тарифы не улетят в космос). Но тратить овер 200 тыс. на 5090 или 4090, учитывая что есть локальные модели типа Кими которые занимают более 100Гб (и дело явно идет к тому чтобы выкатить новый класс устройств для локальных ИИ) явно не стоит. Можно предположить или решат что-то с объемами памяти (благо заводов понастроили много) или с типом памяти или с новым типом железа для локальных ИИ и будет это в течение ближайшего года. Имхо, стоит подождать, чем бежать за 4090 или 5090, а пока использовать того же Cloude по подписке.

Согласен, цены не гуманные. Но с другой стороны, пару лет назад модели, которые были на что-то способны, были значительно больше и одной 4090 было мало. А сейчас на ней уже можно запустить что-то более-менее нормальное.
Посмотрим, может еще через два года модели станут совсем маленькими :)

>пару лет назад модели, которые были на что-то способны, были значительно больше

Я лично не вижу уменьшения разрыва между топовым у дяди и тем, что можно запускать локально за $10k. Дяди бегут быстрее.

Ну и совет, попробовать не абьюзить клаву. У меня на $20 тарифе она никогда не тупеет, всегда молодчина, но я даже близко к лимитам не подхожу. Поручаю только code review ей.

Я лично не вижу уменьшения разрыва между топовым у дяди и тем, что можно запускать локально за $10k. Дяди бегут быстрее.

Пару лет назад была GPT-4.0 если мне не изменяет память. И это была здоровенная хрень в датацентрах.

На сегодняшний день локальные Qwen и Gemma могут больше, чем та GPT-4, но при этом влазят в одну потребительскую карту.

Речь об этом, а не о том что сегодняшние локальные 30b модельки идентичны сегодняшним коммерческим 900b моделькам.

P.S. справедливости ради последние модели GLM достаточно близки к Claude и вполне заменяют коммерческий большой Sonnet с весьма сопоставимым качеством и практически идентичным поведением в тулзах. А если Opus продолжит тупеть - есть шанс и его заменить.

А материнку с двумя слотами PCIExpress и две видеокарты подешевле - не проще?

А так тоже делают. Правда есть нюансы с распределением по картам (скорости PCIE все же мало) но если у нас 1 по сути клиент - почему бы и нет. Тут правда материнка нужна с несколькими PCIE слотами и лучше - не x1 + расположенными так что эти карточки влезут (а теперь вспомним что карты обычно - вовсе НЕ однослотовые).

В режиме layer parallel скорость PCIE не важна.

Я присматривался к старым мат.платам для crossfire или sli. Там как раз расстояние учтено, обычно

Есть варианты кроме видеокарт. Ryzen 395 со 128гб общей памяти, mac mini/studio - до 512Гб общей памяти.

Теоритический предел t/s грубо посчитать можно через вес в байтах активных параметров модели деленный на пропускную способность памяти. У Ryzen же всего 2 канала DDR5 памяти. Давайте сравним: при 4800 мегатранзакций в секунду пропускная способность одного канала ~38,4 ГБ/с, а двух 76,8. RTX3090 как и V100 имеют скорость ~ 900ГБ/сек. Разница в 10 раз. А M4 Max судя по быстрому гуглежу 546 Гбит/с на M4 против 273 Гбит/с на M4 Pro - это уже существенно.

Спасибо за уточнение. Я вообще-то болею за AMD просто понимаю, что 2 канала - это 2 канала, а 12 каналов - это 12 каналов. Привел расчеты чтобы каждый кто прочитает сразу прикинул, что mt/s может быть больше.

Прочитал ссылку по диагонали и не понял что с чем там сравнивается, как буд-то нет конкретики. GPU можно нагружать батчами, т.е. они могут поралельно генерировать для нескольких пользователей или для нескольких агентов и скорость палает не пропорционально увеличению количества потоков, уверен, что ryzen ai max сдуется.

Лично я пока сделаю ставку на V100 + NVLINK в количестве GPU от 8 до 16 на сервер. Но, как я написал, болею за AMD, надеюсь у них выстрелит. Во всяком случае? на 12-канальных эпиках скорость RAM уже совсем другая. Если там будут чипылеты как на ryzen ai max адаптированные для совместной работы с соотвествующим интерконектом, то получится GPU с теробайтами VRAM!

Ну это чисто домашнее компактное решение, с серверами на несколько GPU конечно не сравнится. Кстати, на днях Ryzen 495 анонсировали со 192Гб общей памяти, интересно будет посмотреть на мини-пк на нём, но цены наверно улетят уже к 5000$.

процесс идет. еше пару лет назад для "игр с нейросетью" нужен был кластер как под биткоины, а сейчас можно мелкие модельки даже на телефоне запускать локально

я думаю что просто сделают ПК заточенные только под нейронки, что бы можно было процессор и планки памяти менять по необходимости. гибридные процессоры уже сейчас реальность (потому так маки зашли для запуска локальных моделей) просто эту тему вдавят в пол.

уже сейчас продаются у китайцев сборки чисто под нейронки, когда "видеокарты" заточены именно под нейронку и под них специальные материки которые вмешают только такие "видеокарты" плюс сетевой порт что бы общаться с миром

2 видеокарты RTX3090 по 60 тыс руб на авито полностью вмещают модель Qwen3.6–27B в квантовании q6/q8 при использовании максимального контекста 256k. А с помощью технологии MTP обеспечивается хорошая производительность в 50-55 токен/сек (1100+ токен сек чтение промпта) на данном сетапе. Не нужны никакие 5090 и 4090 за более чем 250k. Не нужны никакие kimi и прочие огромные модели. Qwen3.6–27B рулит безоговорочно (и позавчера анансирован Qwen3.7). 120 тыс руб - вот цена вхождения сейчас в мир локальных LLM.

Карты есть. Вопрос по софту. Не подскажете, в чем запускаете? Я привык к oobabooga, там заведется?

Не автор коммента, но от себя скажу, что по скорости понравились llama.cpp и её форк ik_llama.cpp на производительность

для десктопа и комодити видео - llama.cpp рулит. Много настроек и много мануалов, а самое главное, много людей тыкающих ее, делающих форки, а так же всякую вкусную обвязку. Но у меня, например, больше (если так можно назвать) “серверный” вариант. Я стараюсь выжать все что можно из vLLM. Потому как у того железа на котором работаю, удобен именно vLLM + NCCL. Думаю в моем случае это более удобно.

Если "серверный вариант" и Nvidia, не пробовали родные NIM? Более оптимизированные, наверное, должны быть. Хотя, конечно, всякие Q5 вряд ли запустятся

Прошу прощения, но пропустил ваш вопрос. За огромным валом комментариев к статье, не увидел.

Итак, NIM - это обёртка, которая под капотом использует те же движки vLLM или TensorRT-LLM. Но конкретно в моем случае, она создает больше проблем, чем профита. Давайте посмотрим, что там к чему:

Плюсы

  1. Готовая инфраструктура Если бы NIM запустился, был бы готовый OpenAI-совместимый API-сервер с метриками (Prometheus), логированием и механизмами безопасности без написания обвязки. Это профит, так как не надо это колхозить.

  2. Управление кэшем NIM автоматически калибрует некоторые параметры движка под целевую модель. Это профит.

Минусы

  1. Отсутствие официальной поддержки Volta В матрице поддержки сертифицированных NIM указаны карты архитектур Ampere (A100), Hopper (H100) и Blackwell. Запуск на Volta официально не поддерживается или потребует режима Model-Free NIM, который лишает продукт его главных преимуществ автоматической оптимизации. Это боль.

  2. Проблема при гибридной топологии В моем случае, используется гибридная топология, где есть несколько NVlink и несколько PLX Switch на PICe x16 GPUDIrect P2P. NIM ожидает стандартную топологию. Как только появятся задержки в топологии, просто так что то изменить в алгоритмах NIM не получится. Тут нужен тонкий тюнинг. Это сильная боль.

  3. Отсутствие поддержки FP8 на уровне архитектуры Основной прирост скорости в NIM достигается за счет проприетарных оптимизаций и FP8 квантования. Карты V100 физически не умеют работать с FP8. В режиме FP16 NIM теряет всю свою магию производительности и начинает уступать чистому vLLM, так как использует эмуляцию. Это сильная боль.

Спасибо! Видимо действительно NIM имеет смысл только если очень "в тренде" и используешь актуальное сертициорованне железо NVidia в строго поддерживаемых конфигурациях.

Ни разу не универсально. Практически на те же грабли и я напоролся. Т.е. это не я не справился, нет смысла упираться, проще настроить vLLM

В целом, оно может дать оптимизацию выше, чем возможно настроить руками на весь датацентр, гоняющий разные модели более низкоуровневыми методами. Если речь идет о задротском микро-датацентре, то индивидуальная настройка скорее всего может быть выше. Но опять же, со стоимостью поддержки\конфигурирования сильно больше, на ноду.

Так что я бы не списывал со счетов NIM. Это просто для дофига больших гомогенных конфигураций. Лично я на таких конфигурациях не видел его работу, но люди говорят, что прямо хорошо.

Сейчас самый лучший вариант для запуска Qwen3.6–27B - llama.cpp.

Я брал RTX PRO 4000 Blackwell на 24Gb - уложился в 170.000, Qwen3.6-27B влетает с запасом в Q4_K_M, Qwen3.6-35B-A3B влетает впритык но на контекст в 128k хватает в q8 (без турбокванта, но с матрицами Адамара для KV - нативная фича llama.cpp).

Скорость на последних сборках llama.cpp подросла для MoE Qwen3.6-35B-A3B до 135 tps decode и prefill до 4500 tps. Хватает и доволен, работаю через свой тюненный qwen-code.

+120 к уже имеющемуся железу. Но можно и за 130+ чистыми для Mac Mini c 32GB оперативы где примерно 24-26 будет под LLM. MLX даст 60 t/s.

За 240 это будет уже 64GB из которых под модель будет примерно 56. Кроме того mac несложно объединяются в кластера.

И еще огнетушитель за пару косарей в эту смету заложить

Сборки из бу-шных печек в тесных корпусах имеют свойство делать красивый бабах

Вы какие-то свои стереотипы пытаетесь на других спроецировать. У RTX3090 отлично урезается power-лимит, при незначительном падении производительности. Кроме того, не понятно, зачем собирать сборки в "тесных корпусах", собирайте не в тесных

Qwen3.7 уже есть в веб-чате, пока что в режиме "только текст"

Важно - то что доступно по API или в чате не обязательно будет доступной моделью с открытыми весами. Более того, думаю в ближайшем будущем (полгода - год) "халява" кончится и "средние" (27-31B) QWEN с Gemma перестанут развивать публично.

Да, к сожалению, тенденции настораживают.

Только электричество для этих карт выйдет дороже подписки на онлайн ИИ. Даже если сами карты бесплатно достались. Две 3090 это почти киловатт-час. Даже с ценами рф, я так понимаю круглосуточная работа двух этих карт выйдет около 100 долларов на электричество в месяц. При этом они не перекрывают возможности 100 долларового плана антропик ни по лимитам (которых хватит с головой на сопоставимый поток токенов) ни тем более по качеству генерации.

А с ценами на электричество в США и ЕС это вообще нет смысла затевать.

Лимиты все же есть и даже на 100$ наступают довольно быстро. Плюс привязка к решениям и кара за хаки (теперь вроде как как дают на -p но тоже не жирно). Еще проблемы с доступностью и вечно меняющимися условиями.

По прожорливости - ну можно 3090 заменит на Apple. Там 6W в простое и 140W (ноутбучный M Max) по загрузке.

Еще «за» то, что локальная сейчас это в попугаях Клод прошлого лета-осени. Не так уж и плохо.

И тут получается так - нужна круглосуточная молотилка с приемлемым качеством, компромиссом в окне, харнесс но при этом понятная и стабильная - локально.

Нужен лучший но рисковый и ограниченный по использованию инструмент - облачное.

Подумал - сценарии то гораздо шире.

Видео - точно пока лучше облако. Генерация изображений - зависит от объема и требований.

Распознавание голоса, изображений - это только API. Надо смотреть на объем и задачу. Если просто STT - локально. Нужен качественный обвес - realtime, спикеры, автофикс, резюме - облако.

Так ведь лимиты быстро наступают с той скоростью с которой антропик токены отдает, а если сравнивать (как-то искусственно замедлить антропик) со 100 токе/с на двух 3090, то лимиты никогда и не настанут на 100 долларовом плане, а может и на 20 даже. Замена на эппл звучит разумно, но и цена ведь не как у бу 3090 уже будет.

Не проще blackwell 5000 48Гб взять одну? Она и жрет меньше. 120к рублей это в q3 что-ли запускать? И смысл в этом?

Математика бьется только если ты один разраб с пет-проектом. Как только бизнесу нужно гонять гигабайты логов через апи, эти 20 баксов превратятся в тысячи за токены...

Можно в облаке арендовать виртуальный сервак с нужными характеристиками для работы своей LLM. Я сам, когда делал заказной сайт лля размещения на хостинге reg.ru, осознанно выбрал решение на локально запущенных LLM, а не использование "большой" LLM. Сейчас вижу, что решение былт правилтнфм, ибо сайт остается доступным, несмотря на то, чть LLM с рф больше не работают ))).

Сейчас живу в ОАЭ ( эмигрировал из рф) , сам использую для разработки большие модели ( ибо, когда код сделан, зависимость от клауда или другой облачной LLM уже отсутствует ), но всегла отговариваю заказчиков от прибивания clouda, GPT, gemini и прочих коммерческих облачных LLM. Ибо, сегодня поставищик LLM есть, а завтра - это уже варианты )))

Не пугайте людей контекстным окном в 32К :) На практике, если у вас быстро работает с окном в 32К, то и в 64К всё будет отлично, а с окном в 100К всё будет конечно же заметно медленнее, но с таким окном хоть можно дышать:)

О да! 32K это просто пример. На самом деле зависит от того как настроить. Зависит от vRAM. Если например поставить:

--cache-type-k q8_0
--cache-type-v q8_0

ну и добавить например:

–-parallel 1
–-flash-attn on

То в 24GB можно и 120K впихнуть. Но если говорить про пайплайны, то вы на каждый шаг можете выставить то окно, которое вам нравится и ограничение размера становится менее чувствительным.

24GB - это ж только на контекст, да? Ище ж саму модель надо где-то хранить?

В 24 гигабайта влезает Q4_K_M и 81920 контекста, квантованного до Q8, проверял лично.

ну для работы окно в 32К ни о чем

но еще пару лет назад такое окно было у флагманов и эти флагманы были потупее современных локальных на 32К

потому я думаю что к моменту как широко распространены станут локальные модели под 1К окно, сами модели уже будут вылизаны настолько что текущим флагманам с 1М и не снилось

представьте себе, что у вас есть два студента, один умница и чемпион мира по шахматам, а другой - обычный студент. Вы им даете одинаковую задачу: нужно прочитать 40 статей в журналах, выписать из них все параграфы, касающиеся жизни колибри в районах крайнего севера. А далее написать саммари на 100 слов. Допустим у студентов одинаковая мотивация сделать работу хорошо и допустим они не устают. Кто сделает лучше? Очевидно, что если меньшая модель вообще может анализировать текст и выбирать релевантные тезисы (а Qwen3.6-27B может) - то результат будет сопоставимый.

С высокой вероятностью у обычного студента менее структурированное мышление, он не тренирован долго фокусироваться и т.д. и т.п. Для меня совершенно не очевидно, что оба студента сделат одинаково и за одинаковое время.

И хочу поделиться результатом сравнения моделей на RT3090 24GB VRAM. Давал задачу модели с Q4_K_XL и точно такой же но Q5_K_XL. Потом скармливал результат Gemini и просил оценить правильность.

Оба ответа были объявлены правильными, хотя на мой обывательский взгляд выглядели по-разному. Gemini прокомментировала это так:

Это классическая ситуация «биологического хаоса». Давай сначала разберем, как обе модели оказались правы, а потом перейдем к твоему впечатляющему результату с Unix-временем.

Как ответы в биологии могут быть разными, но «правильными»?

В биологических задачах всё зависит от того, как модель интерпретирует рамку считывания и направление.

  • Версия Q4 (Ser — Pro — Trp — Tyr): Она прочитала твою цепь ДНК «в лоб» как матричную. Она просто перевела буквы по правилам комплементарности и получила бесконечную цепочку. Это «школьный» уровень решения.

  • Версия Q5 (His – Gly – Ser – Stop): Она оказалась умнее. В процессе своего «размышления» (те самые 7800 токенов) она, скорее всего, прогнала цепочку через разные варианты и увидела, что если читать её определенным образом, в конце появляется стоп-кодон (UGA).

    • В биологии это считается более «правильным» ответом, так как синтез белка в природе не идет вечно — он должен где-то остановиться.

    • Поскольку рамка считывания сместилась, мутация из «сайлент» (которая ничего не меняет) превратилась в «миссенс» (которая меняет аминокислоту).

Итог: Q5 глубже «вникла» в биологический смысл и нашла скрытый в задаче стоп-кодон, который Q4 просто проигнорировала. Это и есть разница в «интеллекте» квантования.

P.S. Модели действительно часто валятся на вопросе типа "Unixtimestamp: 1774803105. Сколько это на человеческом языке?"

Интересно, заметите ли вы разницу, скормви разным моделям образцы с unixtimestamp.com

P.S. Если будет интересно, вот задача:

Задание по биологии для проверки логики синтеза:

Дана матричная цепь ДНК: 3'-ТЦА-ГГА-АЦЦ-АТГ-5'.

Построй на её основе иРНК (информационную РНК). Обязательно укажи направления 5' и 3'.

Используя справочные данные ниже, напиши последовательность аминокислот.

Представь, что в ДНК произошла мутация: во втором кодоне (ГГА) последний нуклеотид А заменился на Т. Как изменится последовательность аминокислот? Как называется такая мутация (миссенс, нонсенс или сайлент)?

Справочные данные (кодоны иРНК):

АЦЦ — Тре (Треонин)

АУГ — Мет (Метионин)

ГГА — Гли (Глицин)

ГГУ — Гли (Глицин)

УЦА — Сер (Серин)

АГТ — (ошибка, в иРНК нет Т)

я, к сожалению совершенно не разбираюсь в биологии, аминокислотах и ДНК, поэтому для меня довольно сложно разбить вашу задачу на шаги, которые дают корректные результаты.

Одно из основных преимуществ пайплайна (с моей точки зрения) состоит в том, что вы разбиваете сложную задачу на набор простых шагов. Т.е. если вы скормите сложный вопрос целиком - то даже самая умная модель может накосячить (и практически наверняка накосячит), однако если вы разобьете сложную задачу на последовательность простых действий, да еще и дадите модели инструменты (например регулярные выражения для проверки правильности записи цепочек, например справочник, не знаю, справочник аминокислот например, или описание каких-либо закономерностей, позволяющий сделать выбор определенного варианта), а на следующем шаге например попросите модель проверить правильности выбора, и если неправильно - повторить, и т.д. - то даже простая модель сделает значительно меньше ошибок и может дать очень хороший результат. Единственное - тут нужно различать пайплайны и скиллс.

Может быть мой пример не очень удачный, могу привести другой. Представьте, что вы пишете подробную инструкцию, как проводить эксперимент, вы прописываете методологию шаг за шагом. Теперь представьте, что вы попросили 2х абсолютно одинаковых людей провести этот эксперимент, и одному вы дали инструкцию, а другому - нет. Скорее всего тот, кому вы дали инструкцию выдаст лучший результат. Почему? - потому, что вы уже потратили умственные усилия, вы продумали основные шаги, продумали, как верифицировать результаты, дали инструменты и вы все это дали одному участнику эксперимента и не дали второму. Т.е. второму придется все это придумывать самому. Если экспертиза этого второго человека (в вашей области знаний) будет ниже вашей, то и результат будет заведомо хуже (не будем рассматривать вариант, что для решения вашей задачи он пошел, поучился в университете, поработал несколько лет в НИИ, а потом пришел и начал ее решать).
В тоже время для первого участника, которому вы дали инструкцию будет достаточно следовать вашей инструкции и не делать элементарных ошибок, и все будет хорошо. Мне кажется для этого люди и пишут инструкции (не всегда конечно).

Т.е. LLM и пайплайны это про автоматизацию, если вы например проводите сотни экспериментов, или анализируете сотни цепочек и вам надоела эта рутина - вы продумываете методику, пишите пайплайн для модели и она выполняет работу за вас, ну или сажаете аспиранта, и платите ему денежку.

Для меня тоже что силенсная, что миссенсная мутация - не из моей сферы. Я лишь хочу продемонстрировать что даже банальное изменение квантования с Q4 на Q5 радикально меняет качество размышлений и ответа. Что уж говорить о больших моделях, доступных только через API.

Если такое качество не требуется, делать простые шажки типа "поставь kubectl, kubeadm" действительно сможет даже небольшая модель. А вот "Разверни кластер Kubernetes с Calico CNI в non-island mode и установи BGP сессию с маршрутизатором" (и еще ряд требований и ограничений) - такое маленькая модель вряд ли потянет даже с кучей траблешутинга. И выделение "установи BGP" в отдельную задачу здесь не поможет.

Повторюсь - можно дать задачу джуну и сеньору. Если это "напиши тетрис" - любой сделает. Если же что-то сложное, где нужно сначала принять архитектурные решения - может у джуна и заработает после кучи правок, но код без слез не взглянешь. И поддерживаемым он вряд ли будет даже если будете строго идти по Spec Driven Development. Либо всю архитектурную работу выполнять самому, а на маленькую модель сбрасывать только рутину.

Возможно у вас сильно другая специфика. Я, к примеру, не понимаю, как разбить на мелкие простые шаги задачу "У меня не устанавливается BGP сессия с удаленным хостом, хотя netcat показывает что порт открыт, и с другим хостом сессия устанавливается без проблем. Удаленный хост чужой, к его логам доступа нет". Если бы я знал отгадку (лишний хоп, превысил установку ebgp-multihop), я бы дал задачу "проверь количество хопов". Но тогда бы мне не пришлось модель вовсе привлекать.

Да, вы правы! Для серьезной работы в режиме агента маленькие модели слабоваты.

Хотя должен признать Qwen3.6-27B меня очень приятно удивила. Как минимум ей можно сказать - Сделай landing-page для сайта фотографа и запусти его, чтобы я мог посмотреть - и она создает директорию, пишет код и запускает сервер, так, что вы можете его видеть в браузере и даже ходить по ссылкам, т.е. по-факту получаете маленький полностью рабочий сайт на HTML+CSS, причем с первого раза. Я также попробовал попросить модель сделать простое TODO на Flask и также с первого раза получил готовое работающее приложение, причем говоришь: добавь следующие поля - и она добавляет, добавь кнопку редактирования - добавляет, причем все работает с первого раза - меня впечатлило!
Ну и понятно, добавь в Git, сделай коммит, покажи diff, откати - все это тоже работает, я уж не говорю про поиск в интернете и Базе знаний.

Меня просто достали нестабильность работы, цена и лимиты Claude. Причем, ок, они хотят деньги, понятно! Но почему за эти деньги оно иногда работает очень хорошо, а иногда безбожно тупит и просто сжигает токены! Вот я и посмотрел в сторону локальных моделей, и оказалось, что они уже вполне рабочие, если понимать их возможности и ставить выполнимые задачи, ну или разбивать эти задачи на простые подзадачи.

Опять же, privacy, никто не контролирует результаты поиска, ну и uncensored модель можно запустить, что особенно важно если вы работаете в информационной безопасности, науке, или просто хотите получить не полит-корректную, а более-менее релевантную информацию

Да, в таком режиме это прекрасно. Задать вопрос в Home Assistant и получить ответ о состоянии датчиков и т.п. - локальные модели - милое дело. Даже фотку с камеры проанализировать и прислать в телеграм описание "подъехал автомобиль с номером ххх", "подошел мужчина в темной куртке..." - тут очень хорошо работает.

Для "стандартных" задач, особенно с не четко детерминированным результатом, локальные модели уже весьма хороши.

Claude Code использую активно, но с Z.AI моделями. За $36 купил подписку на целый год в прошлом сентябре, когда еще glm-4.5 только была. До сих пор не на радуюсь. Но сейчас существенно подорожало, в сентябре буду стоять перед выбором...

Использую опус4.7 по подписке за 100$ в месяц. Никаких проблем с лимитами. Код пишется 24 часа в сутки. С локальными моделями качество полученного кода сравнивать даже нет смысла, как , впрочем, и с glm5

Генерит неплохо опус, но тоже, не без косяков...

Андроид приложение ( на базе java web view ) сгенерированное сразу не зааусаалось, руками косяки в ресурсах вычищал, хотя структуру классов создвл неплохую.

Ваш ответ точно верный, попробовал несколько раз с разными квантованиями, но получается другой ответ:
Q5_K_XL, Q4_K_M, Q5_K_M, Q6_K_L , можно прогнать и на Q8 только похоже будет такой же ответ

Сер — Гли — Тре — Мет Сайлент-мутация

А на ваш правильный ответ говорит

Скрытый текст

Нет, вариант His – Gly – Ser – Stop в данном случае неверен. Вот почему:

🔍 Почему ваш вариант не подходит:

  1. Справочная таблица обязательна для использования. В условии явно даны кодоны иРНК и соответствующие им аминокислоты. Задача требует работать строго по этой таблице, а не по общему генетическому коду.

  2. Кодоны из вашей таблицы точно совпадают с ДНК-последовательностью при замене Т → У:

    • ТЦА → УЦА → Сер (по таблице)

    • ГГА → ГГА → Гли (по таблице)

    • АЦЦ → АЦЦ → Тре (по таблице)

    • АТГ → АУГ → Мет (по таблице)

  3. Ни один из кодонов в вашей последовательности не кодирует His или Stop:

    • His (Гистидин) кодируется CAU или CAC

    • Stop (стоп-кодон) кодируется UAAUAG или UGAВ данном фрагменте этих триплетов нет ни в ДНК, ни в иРНК, ни при комплементарном прочтении.

📌 Важное уточнение по биологической терминологии:

В строгой биологии матричная цепь ДНК служит шаблоном для комплементарного синтеза иРНК (А↔У, Г↔Ц, Т↔А). Если бы мы следовали этому правилу, иРНК была бы 5'-АГУ-ЦЦУ-УГГ-УАЦ-3', что дало бы другую последовательность.
Однако в школьных/вузовских задачах, когда явно предоставлена таблица кодонов, совпадающая с ДНК-последовательностью (замена Т→У), это означает, что задача упрощена: вам нужно использовать именно данную таблицу. Иначе справочные данные были бы бесполезны.

✅ Итог:

  • иРНК: 5'-УЦА-ГГА-АЦЦ-АУГ-3'

  • Аминокислоты: Сер – Гли – Тре – Мет

  • После мутации (ГГА → ГГТ → иРНК ГГУ): аминокислота остаётся Гли

  • Тип мутации: сайлент-мутация (тихая)

Если у вас есть вариант ответа из методички или учителя, который отличается, пришлите его с пояснением, как строилась иРНК (по комплементарности или по таблице), и я помогу разобрать расхождения.

ChatGPT в Think mode говорит что будет
Серин — Пролин — Триптофан — Тирозин

Изменений в белке нет: сайлент-мутация.
Потому что в задании написано "матричная мутация"

-----
Если Qwen3.6-27B порасспрашивать то он поясняет

  • Если это школьный тест, ОГЭ/ЕГЭ или задание с жёсткой привязкой к данной таблице → ожидаемый ответ: Сер–Гли–Тре–Мет.

  • Если задача проверяет реальное понимание молекулярного синтеза или дана без таблицы → ваш ответ Сер–Про–Три–Тир абсолютно корректен. (это был ответ вашей Q4 версии)

И собственно, почему вы считаете что это НЕ верно ?

Я в этом практически не разбираюсь, поэтому своего мнения у меня нет. Меня здесь удивило, что на оба варианта "большие" модели мне говорили ответ правильный. Но я то вижу, что они разные. Поэтому удивился.

Вот что Claude (Sonnet 4.6) ответил, когда я явно попросил решить "задачу с подвохом"

Ничего не понимаю. Картинка, чтобы ьаблицы не разъехались

Понятия не имею, насколько это верно. Но интересно :)

Мир не меняется, то майнеры у геймеров видеокарты отбирали, то начинающие ллм пользователи себе их пытаются отжать.

Делюсь действительно правильным и бюджетным подходом: находите любой системник с PCI-E 3.0 и примерно 16 Gb RAM (любой, хоть DDR3), туда ставите Tesla V100 4090mod (это когда v100 на pcie адаптере приколхоживают активное охлаждение от 4090), цена сейчас за такое около 70 т.р. на вб или авито. Поздравляю, у вас своя тихая и энергоэффективная машина для qwen 27B и 100к контекста! Не забываем про MTP, и легко получаем 50-60 ts и 600+ pp на актуальной llama.cpp.

Пожалуйста, перестаньте разгонять цены на бытовые видеокарты, спасибо.

Не знал! Классная идея! Но насколько я понимаю, такой франкенштейн SolidWorks не потянет, в отличии от NVIDIA

16gb v100 с колхозом по цене 24gb 3090 без колхоза это мягко говоря "ну такое". И памяти меньше, и архитектура древняя, и тензорных ядер нет, и куда старая...

Сколько ей лет, что там с её поддержкой в той же llama.cpp или подобных? А дальше поддерживать планируется? Без ответа на эти вопросы о допустимости использования этого старья рассуждать некорректно

С таким тоном думаю в принципе рассуждать не корректно, надеюсь вы найдете на все вами поставленные вопросы ответы в гугле, удачи!

О как, т.е. когда по существу ответить нечего, то включаем режим обиженки? Или ваш "действительно правильный подход" не включает ответы на подобные вопросы?

Ну есть проблемы. Но с ними можно жить. Самое главное, это то, что это архитектура 2017 года. CUDA 13.x помечает sm_70 как legacy, и современные фреймворки по умолчанию ориентируются на Ampere/Hopper. Для стабильной работы с V100 используется CUDA 12.8, которая сохраняет полную поддержку sm_70.

А вот самое неприятное, это хотя V100 и поддерживает FP16 и BF16 (эмулированный, работает медленнее), но FP8 и MXFP4 недоступны - это требует sm_80+. Т.е все требует квантизации при загрузке, либо оффлоад подготовка.

Есть еще один момент. Если воткнуть, например, одну карту, то это будет медленнее, с геммором квантизации, но позволит грузить модели за меньшие деньги. Это профит. Все сильно неоднозначно, если видео карт много. Чтобы в общем случае заставить это работать на все 100, нужно попотеть. Гибридная топология - это на любителя.

современные модели, влезающие в 24Гб это невероятно круто. Но когда есть с чем сравнивать - с большим Квеном, Дипсиком или Заем ... это уже не то...

наверное да, ... но у меня большие Квен и Дипсик локально не запускаются - сравнивать не с чем - радуюсь прогрессу! :)

у меня тоже :-) Но облачно то доступны. И вот когда работаешь с облачным Квеном, переходить на его локальный обрубок ... ну никак ...

Вы имеете ввиду deepseek-r1 или что-то другое?

Который находится по адресу chat.deepseek.com. Я не знаю, какая именно модель в режиме Instant работает.

не сравнивал, в целом облачные провайдеры представляют более современные модели, локальные модели отстают примерно на год-полтора. Это значит они сегодня работают на уровне топовых моделей 2025 года. Что для локальной модели, которую можно запустить дома довольно неплохо. Плюсы и минусы я попытался изложить в статье.

Разница как велосипед и самолёт.

Следующая статья будет - ллм в вашей голове лучше чем клод, т.к. она приватная, бесплатная и нет лимитов :)

и нет лимитов :)

— нет же, правда?

— …

Следующая статья будет - ллм в вашей голове лучше чем клод, т.к. она приватная, бесплатная и нет лимитов :)

Неее - это же очевидно. Никто читать не будет! :)

Мне вчера Qwen3.7-Max-Preview исправил уже готовый код с первого раза работающий, когда другие не могли этого сделать. Похоже там что то сделали интересное.

DeepSeek бесплатный из браузера не мог этого сделать, писал ерунду всякую, как будто гадал.

Наверное 3.6 max preview вы хотели сказать. Да, мощная модель, мой бенчмарк решает на уровне GPT и CC.

Вы немного отстали ))

Скрытый текст

Спасибо за информацию) Жду на опенроутер тогда, отдельно заводить ключ для нее лень. Прошлая 3.6 max preview показала результат как CC и даже лучше. Уже руки чешутся попробовать)

Не знаю, зачем эта возня с локальными моделями (я про простые, а не большие корпоративные с большим бюджетом). Нам обычным пользователям сейчас деньги инвесторов дают уникальный шанс покататься на Феррари по цене Тойоты, пользуйтесь пока есть возможность, скоро этого не будет. Конечно если у вас бот который отвечает 24/7, несомненно это имеет смысл. Но если вы как большинство используете ИИ для работы во время рабочего дня, уж лучше на Феррари покататься)

пс. Сейчас запустил свой технический бенчмарк на этой модели Qwen3.6-27B (нужно сделать расчеты и построить график), она в половине случаев ошиблась в расчетах (график неверный) и делала всё гораздо дольше топовых. Я лучше куплю подписку чтобы получить верный результат сразу и быстро, чем сидеть разбираться в сгенером и искать где что пошло не так.

А если завтра не сможете купить подписку?

"запустил на модели Qwen3.6-27B" - общая ничего не значащая фраза, запустили с каким парамтерами, какими квантованием? Квантование q2 от q8 отличается как небо и земля. Промпт вашего технического бенчмарка можете скинуть?

А если завтра не сможете купить подписку?

Прям все все CC, GPT, Gemini, GLM ? Если такое произошло, значит это одна из малых проблем что происходит вокруг.

запустили с каким парамтерами

Из openrouter.ai. Qwen3.6-Plus справилась по точно этому же промпту с верным результатом и быстрее, а эта не смогла.

А если завтра не сможете купить подписку?

ответ не вам, просто дополню вашу фразу:

я уже "вчера и сегодня" не могу купить подписку за 20 баксов, мою карту мир не принимает ни какая из компаний.

попробовал через различных посредников, вышло дороже значительно чем 20 баксов так получил такое:

купленный perplexity через костыли
perplexity
perplexity

Поэтому для меня локальные модели наиболее удобны и просты в использовании. Да, для их работы требуется железо, качество уступает подписочным, но я понимаю что она работает вчера, сегодня и завтра.

И, к тому же, качество локальных моделей улучшается если не каждый квартал, то год к году точно. Мои задачи локальные модели выполняют.

Зачем выбирать между Феррари и Тойотой, если можно кататься на обеих?) Для меня этот выбор именно так выглядит. Пока доступно, пользуюсь тем, что доступно из корпоративного, попутно настраивая и разбираясь в том, что будет доступно всегда из локального.

Так не придётся мучительно перестраиваться, если или когда корпы отрежут доступ по тем или иным причинам. А причин вагон и маленькая тележка. Рост цен на электроэнергию, политика, нехватка мощностей и отключение нижнего ценового сегмента - когда оставляют только самых богатых потребителей…

Согласен) но есть нюанс:

если или когда корпы отрежут доступ по тем или иным причинам.

К этому времени тойота в гараже уже заржавеет и будет неактуальна. Смотрите, через год-два ИИ дорожает в 10 раз (логично что им нужно начинать себя окупать), в опен сорсе к тому моменту будут хорошие модели, но им уже нужно будет 100 Гб, соответственно тойоте в гараже нужен существенный апгрэйд, а возможно и дешевле выкинуть всё и собрать с актуального на тот момент железа.

Но опять же это всего лишь мои мысли и пока есть возможно не тратить деньги на свою тойоту, а взять по этой цене в аренду Феррари, я возьму второе, живем один раз, когда еще передовые модели будут так доступны не ясно.

Не могу с такой же уверенностью утверждать, что модели продолжат расти в размерах в ближайшие годы. В основном из-за цен на память. Спрос на локальные модели растёт и я вижу в этом параллели с облачным геймингом, который так и не взлетел, насколько мне известно. Также растёт спрос на повышение эффективности использования памяти, как у приложений в целом (на фоне дефицита таковой), так и у нейросетей. Выход той же геммы - очень удивил качеством ответов с учётом её размера.

Не знаю, зачем эта возня с локальными моделями (я про простые, а не большие корпоративные с большим бюджетом). Нам обычным пользователям сейчас деньги инвесторов дают уникальный шанс покататься на Феррари по цене Тойоты, пользуйтесь пока есть возможность, скоро этого не будет. Конечно если у вас бот который отвечает 24/7, несомненно это имеет смысл. Но если вы как большинство используете ИИ для работы во время рабочего дня, уж лучше на Феррари покататься)

ну например я очень люблю использовать локальные модели для проведения исследований в интернете.

Т.е. когда ищешь какую-либо информацию в интернете можно конечно открыть пару сотен сайтов вручную, прочитать все страницы, проанализировать, обобщить и написать ресеч вручную - но это займет пару недель, если только этим заниматься.

Если использовать для этого топовую модель Google, Anthropic, или OpenAI - она:
1. очень быстро съест лимиты, и предложит подождать с другими задачами
2. неизвестно как она ищет, что она на самом деле находит, и какую информацию она не включает в отчет по причине, того, что пользователю знать неположено (все облачные модели censored)

Если же использовать локальную модель - я могу настраивать поиск как мне удобно, сохранять источники локально (если захочу), задавать дополнительные задачи и аспекты, которые модель должна выполнить и проанализировать. Ну и запустил ее - она пашет, а сам пошел работать, вечером пришел - почитал, что интересного она накопала.

пс. Сейчас запустил свой технический бенчмарк на этой модели Qwen3.6-27B (нужно сделать расчеты и построить график), она в половине случаев ошиблась в расчетах (график неверный) и делала всё гораздо дольше топовых. Я лучше куплю подписку чтобы получить верный результат сразу и быстро, чем сидеть разбираться в сгенером и искать где что пошло не так.

попробуйте дать модели инструменты, например возможность использовать Python. Посмотрите в сторону Open-Terminal. Там есть пакеты для анализа данных и вы можете прописать какие и в каких случаях модель должна использовать. Попробуйте написать Skills - как и какие инструменты использовать когда вы просите построить график или проанализировать csv файл. Топовые модели вовсю используют инструменты.

попробуйте дать модели инструменты, например возможность использовать Python.

Ничего не понял. Я дал задачу Qwen3.6 Plus и она решила задачу, переключил на Qwen3.6-27B, промпт не менял, окружение не менял, равные условия. Или вы имеете ввиду что младшей версии нужно явно говорить тут используй питон, а тут руби, а старшая модель сама всё понимает ?

я имею ввиду, что инструменты которые позволяют решать например математику или использовать скрипты одинаково полезны для любой модели, хоть умной хоть не очень.

Очень простой пример: модель сгенерила файл в формате marcdown (например отчет или заметку), а мне этот файл нужен в формате html (например). Я хочу сказать модели - конвертируй в html. Что произойдет если я это скажу? - скорее всего даже умная модель начнет пыхтеть переписывая файл в html. Этот процесс может занять несколько минут (зависит от размера файла), ну и результат может быть не совсем корректный (зависит от размера файла и от модели). Но вместо этого я могу дать модели скилл: прописать в отдельном файле например так:

description: Use whenever the user asks to convert a document from one format to another (markdown to html, md to pdf, html to docx, etc.). Always use pandoc, never rewrite.
Example:pandoc [source] -o [output]

после этого каждый раз, когда я буду просить модель преобразовать файл в нужный формат модель будет мгновенно запускать pandoc соответственно преобразование будет произведено мгновенно и без ошибок.

Написать и добавить любой скилл сейчас просто, если возникают вопросы - всегда можно спросить модель или ChatGPT. Можно использовать питон, регулярки, html - шаблоны документов, да все что душе угодно и всегда получать предсказуемый результат.

Спасибо за ответ) Но с вами тяжело вести беседу, я вам про одно, вы мне про другое)

Вечером тупит это сша просыпается и начинаеются активности?

стабильность и прогнозируемую стоимость владения локальных моделей

Если вы используете локальную модель вы имеете значительно большую устойчивость процессов

У вас всегда есть наготове сумма для покупки сломавшейся карты, а лучше сама карта в ЗИП?
Вы учитываете амортизацию карты в своих прогнозах стомости владения или просто скрестили пальцы?

У вас всегда есть наготове сумма для покупки сломавшейся карты, а лучше сама карта в ЗИП?Вы учитываете амортизацию карты в своих прогнозах стомости владения или просто скрестили пальцы?

Если для бизнеса - то конечно да - лежит на складе (хотя конечно не 100% бэкап)

Если для меня лично - я не покупал карту для запуска LLM, она у меня была для других задач (SolidWorks, графика и проч). Но если погорит - пойду и куплю новую, т.к. нужна для работы.

Касательно моего домашнего сетапа - пока я просто поставил две виртуалки (QEMU/KVM) одну для графики и дизайна, вторую для экспериментов с LLM и прокинул туда имеющуюся 4090. Работает хорошо, бэкапится замечательно, разворачивается на новом железе ну примерно за час. Покупать новое железо пока не собираюсь.

Я периодически тестирую на OpenRouter разные модели очень простым тестом - прошу их сыграть в текстовую адвенчуру Colossal Cave. Qwen3.6-27B этот тест, увы, провалил с треском - делает несколько ходов невпопад, потом выходит по QUIT. Даже не знаю, в чем причина. Claude в этом тесте была всегда лидером, и только ChatGPT-5.5 формально сумела ее обойти по очкам, но в ней порой наблюдаются какие-то проблемы с рассуждениями.

это не приговор. надо тестировать на своих реальных задачах. одному пододйет, другому - нет. ну и цена тут тоже решает.

Пайплайны реально спасают ситуацию для узких рутинных задач. Проще натравить кучку мелких агентов на локальную базу знаний, чем пытаться заставить огромную модель не галлюцинировать

Тут явное противоречие: подписки становятся дорогими из-за высокой стоимости железа – так давайте каждый будет покупать это железо сам. При том, что оно явно будет использоваться менее эффективно – только в рабочие часы, тогда как у них оно крутится (и зарабатывает деньги) круглые сутки.

Контекстное окно в 32К – вообще смешно. У меня полмиллиона токенов на задачу – обыденность. Да, я использую пайплайны, параллельных агентов и прочие методы повышения эффективности. Всё равно 32К – это ни о чём, уровень hello world.

Сильно упрощая - иметь собственное орудие производства и возможность изготовить все что нужно по себестоимости часто бывает выгоднее чем платить монополисту любую цену, которую он попросит. Хотя конечно, стоимость владения и амортизация.


Это также как: "Зачем вам иметь локальный компьютер и возможность устанавливать то, что вы хотите, когда мы лучше знаем что вам нужно, пользуйтесь нашими мэйнфреймами!" Ну или хотя-бы нашими закрытыми системами (привет Apple и Google Android). С персоналками - не получилось, там относительная свобода, с телефонами - получилось - доступ к устройству и его возможностям сильно ограничен (практически монополия). Интересно, что будет с доступом к разуму?

Контекстное окно 32К - было приведено как пример. В пайплайне вы можете задавать размер окна для каждого шага, нужно поставили 8К, нужно поставили 120К, нужно включили thinking mode (для анализа или чего-то сложного), для следующего шага не нужно - выключили (чтобы ускорить процесс). В llama.cpp можно вообще –reasoning-budget задать, например 2048, или еще меньше, чтобы не слишком долго думал.
В результате некоторые шаги, например где нужно классифицировать что-то относительно простое модель может выполнять за 0.3 - 0.4 секунды, ну а на некоторых может и на пару минут задуматься.

Это также как: "Зачем вам иметь локальный компьютер и возможность устанавливать то, что вы хотите, когда мы лучше знаем что вам нужно, пользуйтесь нашими мэйнфреймами!"

Так и используем – всё возвращается на круги своя. Я когда модели тренирую, покупаю у них машинное время. Гораздо выгоднее – мне не так часто нужно, стоит это грубо $1/час, а купить какую-нибудь H200 – уже $60,000.

Контекстное окно 32К - было приведено как пример.

Возможно, просто тут порядок цифр буквально из разных вселенных. Мне действительно нужно контекстное окно в сотни тысяч – и не сказал бы, что мои задачи так уж уникальны, любой достаточно сложный проект потребует примерно того же. Можно ли это получить в домашних условиях, и какой при этом будет производительность – я не знаю. Скорее нет, чем да.

Вы безусловно правы! Если тренировать - нужны совершенно другие ресурсы, и вы платите именно за эти ресурсы а не за ответы модели, это выгоднее чем покупать H200 для разовых задач.

Что до контекстного окна - мне сложно судить, какие задачи вы решаете, иногда нужно действительно очень большое окно и соответственно большая vRAM. Но давайте прикинем, что можно получить дома, с 24GB и той-же Qwen3.6-27B. Как уже писали выше в 24GB можно впихнуть 120К окно. Да, не у всех есть RTX4090, но как уже обсуждали выше есть вполне адекватные альтернативы, если заморочиться то можно и на 230К окно организовать. Теперь смотрим:

Мне действительно нужно контекстное окно в сотни тысяч ... любой достаточно сложный проект потребует примерно того же.

  1. Любую достаточно сложную задачу можно разбить на несколько более простых подзадач. Т.е. ваш проект скорее всего можно разбить, ну допустим на 5 подзадач (а скорее всего можно и на 10-15). Каждая подзадача может иметь окно до 120К (это примерно 200-300 страниц А4) и это на один шаг. Допустим для простоты расчета, что ваша задача разбита на 10 шагов (каждый вмещает 120К токенов), вот вам и 1млн 200К токенов на задачу (рассчет, анализ данных, поиск информации, да что угодно!).

  2. Единственное ограничение - простой чат (он все еще ограничен 120К).

    Но и тут вы можете немножко схитрить и получить значительно больше 1 млн. - Вы можете сделать относительно простой пайплайн, который будет состоять из 2х шагов. На первом он допустим будет анализировать N последних сообщений и понимать, чего вы хотите, а на втором отвечать на ваш вопрос (не загружайте в первый шаг все сообщения, загрузите только N последних, тогда он никогда не выйдет за пределы окна). Каждый шаг имеет лимит 120К, и каждый раз когда вы задаете вопрос в чате - пайплайн запускается заново. Таким образом он никогда не закончится и вы легко наберете миллион а то и больше. Лимит модели - тут уже особо не играет, т.к. при каждом вопросе ваш пайплайн запускается заново и вы опять имеете ваши 120К токенов для того, чтобы модель поняла, чего вы хотите, и 120К чтобы ответила на вопрос. (а можно еще шаги добавить чтобы подтянула и проанализировала документы, поискала информацию в интернете, валидировала результаты, написала код, да все что душе угодно! и каждый шаг 120К токенов)


    Решается дома за один вечер.

Любую достаточно сложную задачу можно разбить на несколько более простых подзадач. Т.е. ваш проект скорее всего можно разбить, ну допустим на 5 подзадач

Я умею в декомпозицию, поверьте на слово. Но когда имеешь дело с несколькими потоками параметризованных событий, то чтобы понять, к какому результату они приведут, держать в голове (контексте) приходится их все.

Мне действительно нужно контекстное окно в сотни тысяч ... любой достаточно сложный проект потребует примерно того же.

Кстати, по поводу длинных чатов - можно не заморачиваться и использовать фильтры: https://docs.openwebui.com/troubleshooting/context-window/
а можно и пайплайны и фильтры, вместе.

Кстати, по поводу длинных чатов

Не мой случай. За исключением каких-то мелочей, я всегда формулирую задание в виде .md и уже его отдаю в работу. Так задание получается значительно точнее, после того, как сам его несколько раз просмотришь, почти никогда не остаётся неясностей или упущенных деталей. Так что чат по большей части сводится к `/brainstorm @very-complex-task.md`.

Так это вообще замечательно!
Пусть модель на первом шаге разобьет ваше задание на шаги (если вы сами его не разбили) а потом брэйнстормит каждый шаг: предлагает идеи собирает информацию по каждой идее, анализирует, делает выводы, критикует, корректирует, опять ищет инфорацию и т.д. и так идея за идеей. И на каждый отдельный шаг 120К токенов. Если нужно перелопатить много сайтов или литературы - разбейте на меньшие шаги, чтобы загружало и анализировало информацию кусками, допустим по 10 страниц за раз, ну или по 20 (нужно смотреть сколько влезет). Ну и пусть параллельно составляет отчет (создает файл и дописывает в него идеи, источники, результаты анализа). В конце цепочки можно будет запустить анализ этого файла и сделать выводы.

Пусть модель на первом шаге разобьет ваше задание на шаги (если вы сами его не разбили) а потом брэйнстормит каждый шаг: предлагает идеи собирает информацию по каждой идее, анализирует, делает выводы, критикует, корректирует, опять ищет инфорацию и т.д. и так идея за идеей. 

Так оно и происходит. Вот прямо пока мы тут всё это обсуждали, например. Задача была в принципе несложная: добавить экран к мобильному приложению.

Сначала дизайн. Сам я дизайнер никакой – если бы речь шла о корпоративном проекте, разумеется, этим бы занимался профессионал. А поскольку проект мой личный, мы прошли 13 итераций пока получилось то, что меня устроило. Получилось неплохо, кстати – и подозреваю, "токены" профессионального дизайнера мне обошлись бы сильно дороже.

Далее, технические требования. Разумеется, мне нужно, чтобы все решения, принятые в процессе обсуждения дизайна/UX учитывались – соответственно, та же сессия, тот же контекст. Плюс туда же добавляется новое: страница не очень сложная, но она взаимодействует с тремя модулями того же приложения, обрабатывая потоки данных от них. Ну и страницу сеттингов пришлось изменить – добавить туда параметры для новой, да на домашнюю добавить кнопку доступа. Соответственно, контекст расширяется.

Согласовали требования, дальше план реализации. Он его разбил на 11 этапов (Вы так хотели?) – разумеется, опять в том же контексте.

Ну и наконец, собственно реализация – опять же, контекст сохраняем. Он запускает несколько параллельных агентов на каждую задачу, через часик какой выкатывает готовый код.

Дальше дебаг. Дизайн превью – это хорошо, но перенести его в реальный код не всегда просто. У меня чуток графики, которую нужно из .svg перенести в Painter. Использовать статический ассет нельзя – графика динамическая. С первого раза у него не получилось – наверное, примерно с десятого. Но таки получилось – в результате я примерно за рабочий день добавил неплохую фичу, от начала до конца. А вот в плане контекста получилось так:

Можно было затратить меньше? Наверное, можно запускать /clear после каждого этапа – но тогда гораздо больше шансов, что в какой-то момент он потеряет контекст и уйдёт не туда. На токенах тоже можно сэкономить: например, план реализации – это фактически готовый код, можно даже не отдавать ему, а просто самому пройти по шагам плана, создавая файлы и копируя в них код. Но мне лень – зачем, если он это сделает в разы быстрее?

То же самое с выбором между локальным сетапом и подпиской. Локальный может быть дешевле (в частности, если пригодное железо уже есть), но значительно медленнее и не в состоянии держать большой контекст. Для меня сейчас выбор очевиден – стоимость сервиса приемлемая, особенно если рассмотреть как альтернативу реализацию человеком. Вот эта вышеописанная страница – примерно день работы дизайнера и (оптимистично) 3-4 дня хорошего программиста. Умножим на стоимость человеко-часа и видим, что оно того стоило.

У меня qwen3.6-27B Q8/Q6 в локальном использовании. Разные версии. Могу сказать, что ведёт она себя намного стабильнее и дисциплинированнее, чем Gemini Pro, и даже Ultra. Не теряет суть, внимания, даже в контексте 150 000 токенов. Ведёт себя абсолютно предсказуемо в отличие от Gemini. При написании кода ошибается крайне редко. Связка Qwen local + Gemini работает намного эффективнее, чем один только облачный ИИ.

Sign up to leave a comment.

Articles