Обновить

Комментарии 174

НЛО прилетело и опубликовало эту надпись здесь

Ссылка на первую статью, с облачными сервисами - не работает

Спасибо, поправил

Для себя пришел к схеме собственного сервака дома (RTX 5090), на котором развернута связка LibreChat (Собственно для работы в режиме чата) -> LiteLLM -> ollama с локальной моделью плюс оркестрация и бюджетирование, выходит удобная схема, когда простые запросы обрабатываются локально бесплатно и в большинстве случаев приемлемо, более сложные уходят на дешевые или бесплатные облачные LLM, самые сложные и архитектурные на дорогие, а вот тесты снова можно гонять на дешевых или локально. Итого имеем единый интерфейс для агентов, единый чат, единую точку подключения MCP и скилов и можно один раз настроить инструмент для подключения к LiteLLM, а дальше уже работать со всем комбайном сразу, так и токены экономятся сильно и качество не страдает и не надо каждый раз переключать инструменты на новую схему, чтоб потестить какую-то модель.

Кто/что занимается классифицированием запросов?

Как раз локальная LLM сейчас это qwen3.5:35b на 256К контекста через настроенный Auto Routing в LiteLLM плюс оркестратор, там одностраничник на питоне, четко на GPU влезает, если не в одну калитку использовать, а делить на несколько человек, то 27b будет с большим запасом по памяти.
Промт для оркестрации примерно такой:

Ты классификатор запросов. Верни только JSON. Допустимые route: local_fast, infra_ops, deep_reasoning, safe_review. Оцени complexity: low, medium, high. Поставь sensitive: true/false.

А как это в агенте оаботает, у которого своих режимов со своими промптами из коробки полно? В агенте вы тогда только один режим, например, Кодер с моделью “Авто” из LiteLLM выставляете? А как тогда Планировщик, Ревьюер и т.д. они тоже через эту Авто-модель? И бывают ли сюрпризы, например, не та модель выбирается?

У меня это работает как: Клиент -> внешний оркестратор -> qwen-classifier -> LiteLLM model_name -> внутренний router LiteLLM -> провайдер/локальная модель -> fallback при ошибке

Схема работы такая: клиент отправляет запрос во внешний оркестратор, оркестратор сначала вызывает qwen-classifier, получает от него решение о маршрутизации, после этого выбирает нужный model_name в LiteLLM, LiteLLM через свой внутренний роутер выбирает конкретный backend, отправляет запрос в локальную модель или внешний провайдер, а при ошибке применяет retries и fallback.

Логика простая. Оркестратор получает запрос пользователя и не пытается сразу отдать его в финальную модель. Сначала он делает отдельный вызов в qwen-classifier, который используется только как классификатор. Этот вызов нужен для того, чтобы понять, какой тип задачи пришел, насколько она сложная, критичная, требует ли размышления, кода и длинного контекста. В ответ qwen-classifier возвращает JSON, например такой:

{ “route”: “infra_ops”, “complexity”: “medium”, “criticality”: “medium”, “needs_reasoning”: true, “needs_code”: false, “needs_long_context”: false }

Если задача сложная, ответ может быть таким:

{ “route”: “premium_reasoning”, “complexity”: “high”, “criticality”: “high”, “needs_reasoning”: true, “needs_code”: true, “needs_long_context”: true }

После этого оркестратор валидирует этот JSON и уже на его основе выбирает alias для основного вызова в LiteLLM. Маппинг примерно такой: fast_local -> qwen-local, infra_ops -> qwen-infra, balanced_external -> gpt-5.4, premium_reasoning -> claude.

Сами модели можно держать так:

model_list:

  • model_name: qwen-classifier litellm_params: model: openai/qwen3.5:35b-a3b-q4_K_M api_base: http://ollama:11434/v1 api_key: ollama temperature: 0 max_tokens: 300 timeout: 15

  • model_name: qwen-local litellm_params: model: openai/qwen3.5:35b-a3b-q4_K_M api_base: http://ollama:11434/v1 api_key: ollama temperature: 0.1 max_tokens: 800 timeout: 20

  • model_name: qwen-infra litellm_params: model: openai/qwen3.5:35b-a3b-q4_K_M api_base: http://ollama:11434/v1 api_key: ollama temperature: 0.2 max_tokens: 3000 timeout: 90

  • model_name: gpt-5.4 litellm_params: model: openai/gpt-5.4 api_key: os.environ/OPENAI_API_KEY temperature: 0.2 max_tokens: 5000 timeout: 120

  • model_name: claude litellm_params: model: anthropic/claude api_key: os.environ/ANTHROPIC_API_KEY temperature: 0.2 max_tokens: 8000 timeout: 180

Смысл тут в том, что qwen-classifier, qwen-local и qwen-infra — это одна и та же локальная модель на одном и том же backend, но с разными параметрами вызова и разным execution profile. qwen-classifier используется только для классификации и никогда не отдает пользователю финальный ответ. qwen-local используется для быстрых ответов без глубокого анализа. qwen-infra используется для инженерных и инфраструктурных задач, где нужен более серьезный разбор. gpt-5.4 — это внешний маршрут среднего уровня по цене и качеству. claude — самый сильный и дорогой маршрут для сложных или критичных задач.

После выбора alias оркестратор формирует профиль вызова для основной модели. То есть он подставляет нужный system prompt, temperature, max_tokens, timeout и, если это локальная модель, включает или отключает размышление через think=true/false. Дальше оркестратор делает обычный HTTP-вызов в LiteLLM, например в /v1/chat/completions, и ставит в запросе model: “qwen-infra” или другой выбранный alias.

LiteLLM сам смотрит в config.yaml, находит, какой backend и какая реальная модель стоят за этим model_name, и дальше работает уже как прокси. Если под alias только один deployment, он сразу вызывает нужный backend. Если deployment несколько, включается внутренний router LiteLLM и выбирает конкретный backend по своей стратегии.

Когда backend отвечает, LiteLLM возвращает результат оркестратору. Оркестратор может сделать постобработку: проверить, что ответ не пустой, что структура валидная, что модель не вернула мусор или поломанный JSON, если он ожидался. Если ответ нормальный, он уходит клиенту.

Если backend вернул ошибку, сначала отрабатывают retries и fallback внутри самого LiteLLM. Если это не помогло или если ответ пришел, но не прошел проверку качества на стороне оркестратора, оркестратор может сам повысить маршрут и повторить запрос через более сильный alias.

Дополнительная policy-логика обычно такая. Если route=fast_local, выбирается qwen-local. Если route=infra_ops, выбирается qwen-infra. Если route=balanced_external, выбирается gpt-5.4. Если route=premium_reasoning, выбирается claude. Если needs_reasoning=true и выбран локальный маршрут, включается think=true. Если needs_reasoning=false и выбран быстрый локальный маршрут, включается think=false. Если needs_code=true и complexity=high, маршрут можно сразу поднять на один уровень. Если needs_long_context=true, запрос не должен идти в qwen-local. Если criticality=high, можно вообще запретить qwen-local и qwen-infra для финального ответа и сразу отправить запрос во внешнюю модель. Если локальная модель ответила плохо, запускается escalation по цепочке qwen-local -> qwen-infra -> gpt-5.4 -> claude.

Полный проход запроса выглядит так. Клиент отправляет запрос в оркестратор. Оркестратор делает первый вызов в qwen-classifier. qwen-classifier возвращает JSON с route и флагами. Оркестратор валидирует классификацию, выбирает alias основной модели, формирует execution profile и отправляет основной запрос в LiteLLM. LiteLLM по model_name ищет deployment, внутренний router выбирает backend, запрос уходит в локальную модель или внешний провайдер. Если backend ответил успешно, LiteLLM возвращает результат оркестратору. Оркестратор выполняет контроль ответа и отдает его клиенту. Если backend вернул ошибку, LiteLLM применяет retries и fallback. Если и это не помогло, или если результат неудовлетворительный, оркестратор может повторить запрос через более сильную модель. Финальный ответ после этого возвращается клиенту.

Для примера, если приходит запрос: «Спроектируй и напиши функцию определения проблем в Ceph», оркестратор сначала отправляет его в qwen-classifier. Классификатор, скорее всего, вернет что-то вроде:

{ “route”: “infra_ops”, “complexity”: “high”, “criticality”: “high”, “needs_reasoning”: true, “needs_code”: true, “needs_long_context”: true }

Дальше оркестратор видит, что задача инженерная, сложная, требует код и длинный контекст. Базовый выбор тут будет qwen-infra, но из-за criticality=high и needs_long_context=true policy может сразу поднять маршрут до gpt-5.4 или даже claude. После этого оркестратор делает основной вызов в LiteLLM уже с нужным alias. LiteLLM выбирает backend, выполняет запрос и возвращает ответ. Если ответ плохой или вызов завершился ошибкой, включается fallback или escalation.


Ух вот это я простыню накатал, надеюсь хоть чуть-чуть понятно, вообще начни с базового функционала https://docs.litellm.ai/docs/proxy/auto_routing а там уже можно расширять по мере надобности. Сюрпризы бывают, но достаточно редко, у меня еще и бюджетирование настроено, чтоб в минус по деньгам не уйти случайно на простых задачах, ошибки в основном вида отдал в локальную модель, получил вывод не проходящий тесты, отдал в платную, тесты ОК, но у меня промтами подперто еще так , чтоб запросы сразу в самую дорогую не шли, если не попытался решить в более дешевой, исключение триггер на слово архитектура, такие запросы сразу в клод.

А насколько это удобнее обычных агентов которые привязаны к разным провайдерам? Навример, Pi подерживает несколько провайдеров для subagents, когда надо что-то простое сделать, то указываешь имя агента: `@agent-ocr найди картинки с котиками в файлах проекта`. `@agent-think подумай о жизни на марсе`

Тут сложно ответить однозначно: каждый выстраивает такую схему под себя и под свой профиль работы. Я SRE, и у меня вся эта конструкция дополнительно обвязана еще десятком MCP, которые ходят в рабочие системы: GitLab, мониторинг, агенты на серверах, Jira, Confluence, NetBox, Ansible и так далее.

То есть, если мне нужно опробовать какой-то новый инструмент, например плагин для VSC, я просто подключаю его к API LiteLLM, и все его запросы сразу начинают идти через всю эту обвязку - с роутингом и обогащением данных через MCP. Точно так же туда подключаются чат, консоль и прочие интерфейсы.

Например, в LibreChat я могу написать что-то вроде: “Какие серверы с DDR5-памятью сейчас утилизированы по памяти более чем на 80%?” - и получить список. Затем следующим сообщением спросить: “Какие из них стабильно растут по утилизации на протяжении полугода и какие наиболее ресурсоемкие процессы сейчас на них запущены? Сделай таблицу по убыванию”. После этого я могу просмотреть результат, при необходимости что-то уточнить через агентов, а затем в том же окне чата попросить поставить задачу в jira на закупку памяти с перечислением серверов и недостающих объемов.

При этом в ту же самую связку, из окна VSC, я могу попросить написать скрипт, добавить информацию о нем в Confluence, положить его в репозиторий GitLab и выкатить плейбуком на нужный inventory, который нейросеть получит из NetBox по имени проекта.

Можно ли сделать то же самое через набор агентов в стиле OpenClaw? Да, конечно, можно. Но в таком случае каждая мини-задача, скорее всего, потребует отдельного агента, и каждый инструмент должен будет понимать, к какому именно агенту обращаться. Для моих задач это не всегда удобно, потому что они не так уж часто повторяются - иначе я бы их уже давно автоматизировал. Почти каждая новая задача немного отличается от предыдущей, и под нее пришлось бы каждый раз дорабатывать или перенастраивать агентов.

Если сравнивать с обычным производством, то агенты - это конвейер, где каждый сотрудник хорошо делает несколько конкретных операций, но ничего не знает о работе соседа. Моя же схема - это скорее универсал, который, возможно, будет выполнять работу чуть дольше и местами чуть менее эффективно, зато способен провести ее от начала до конца, не дергая остальных.

Поддерживаю! Ждём статью :)

Пиши статью! подписался на тебя!

Чукча вообще не писатель, я тут десяток лет ничего не писал, да и комментирую редко, просто тема достаточно мне близкая, но подумаю, как структурировать знания в общем виде, а не в виде каких-то кусков наработок. Основная проблема с нейронками сейчас в том, что всё настолько быстро меняется, что любая глобальная статья выйдет уже устаревшей. Надо подождать годик-другой, чтобы знания настоялись, появились какие-то best practice, отмер миллион инструментов и остались только самые-самые. Сейчас идёт зарождение нового формата работы для многих, каждый день появляются новые подходы, и то, что можно описать сейчас, через пару месяцев будет устаревшим и неприменимым.

Хорошо бы ещё стандартизированный бенчмарк использовать, чтобы best practices были с KPI.

Интересно чтиво!

У меня тоже есть похожие идеи, но вместо LiteLLM думаю попробовать OmniRoute

Я всё никак не могу решиться на покупку 5090. Вроде и хочется и колется. Как часто возникает мысль "а вот если бы их было две..." или там H100+?

Для LLM 5090 не имеет смысла. Надо хотя бы десяток таких карт. А вот поиграться с генерацией картинок и видосов уже можно

поиграться с картинками достаточно и 5060ti 16gb, выйдет хоть и медленнее, но в 6 раз дешевле.

У меня 5090 покупалась для игр, комп в дуалбуте, днем в рабочее время крутится убунта со всем этим комбайном для нейронок, вечером я на нем в игрушки играю.

На 5090 Gemma4 26B Q6_K/Qwen3.6 35B Q4_K_M влезает с полным контекстом 256К (без квантизации).

Скорость генерации начинается от 170 т/с - очень хорошая скорость для агентов. На 200К контекста скорость падает до 90 т/с.

Минимально умные модельки для агентов как раз начинаются в районе 30B. При наличии RAM, можно запускать гораздо большие MoE около 120B (20т/с) - это почти уровень GPT4.

У меня локальные модели в обычном применении заменяют 90% запросов (справка, суммаризация, анализ текста, перевод, простые программки, или когда код нельзя отправлять в сторонние сервисы). 10% приходится на платные через openrouter. Но я не обмазываюсь агентами openclaw/hermes/etc. Легкое использование opencode - для вайбкодинга элементарных вещей или нарисовать mermaid блок-схему неизвестного кода чтобы ускорить загрузку кода себе в голову.

Из минусов, хоть prompt processing легко переваливает за 1000 т/с, но т.к. все модели запускаются через llama.cpp и его форки, то поддержка часто сырая. Что приводит к тому что такие агенты как opencode/claude code/codex не совсем совместимы. Из-за несовместимости kv-кеш достаточно часто инвалидируется, а значит весь сеанс приходится пересчитывать. 100К контекста со скоростью prompt processing 1000 т/с занимает полторы минуты.

В общем не следует считать 5090 альтернативой, а только дополнением. После покупки 5090 где-то через месяц, два, три, захочется что-то типа RTX 6000 Blackwell.

P.S. локальные модели очень удобны в SRE/Devops задачах. На внешний LLM нельзя просто так отправить конфиги. Напротив, в локальную модель отправить конфиги со всеми секретами - безопасно. Все ConfigMap, DeploymentSet, etc из k8s и прочую SRE инфу ~30B модели достаточно хорошо обрабатывают.

Это если оркестратор не перепутает и не отправит пароли в Антропик вместо локальной модели

А можно взять даже дешевле чем одна 5090, 2х5060 ти 16 и одну 5070ти для ллм/игр+96 дрр5 6400 или выше, материнку с 3 слотами не ниже пси-ех 4 х4 и core ultra 9 или 7. Получишь 48 гб врам+96 гб рам. Qwen 3.5 35B q8 с f16 кешем(на качестве равном/почти равном оригиналу в bf16) крутится со скоростью 85-100 токенов в секунду генерация что быстрее многих платных провайдеров, зависит от контекста конечно скорость, проверял до 200 тысяч контекста. А когда требуется составить план или задача посложнее, то переключаемся на qwen 3.5 122B в q5 качестве мозгов и решаем задачу. Скорость конечно зависит от контекста на малых получаем до 44 токенов генерации, на максимальном проседаем до 32-35 токенов в секунду. Что снова не так далеко от платных провайдеров.

Важное уточнение скорости эти будут только в llama cpp которая уже собранная есть, а команды с любым чат ботом собираются в батник/скрипт для запуска на виндоус/линукс. Да и кушает эта система наравне с 5090 выдавая намного более лучшие результаты и дешевле. А далее уже только блеквел 6000 с 96гб каждая памяти иначе выхлоп за затраты будет отрицательный

В принципе у программистов остается несколько выборов и все не очень приятны. Первый, тот к которому подталкивают — платить до половины дохода в чужие облака. Второй, единовременно заплатив за железо, поддерживать ПО на конкурентном уровне самостоятельно. Третий, гибридный, арендовать облачные мощности, но ПО запускать открытое и своё. Причем по деньгам, скорее всего, он не будет уступать первому, но значительно проигрывать по удобству использования.

платить до половины дохода в чужие облака

Имхо как это всегда происходит в среднем оплата труда упадет ровно до величин, когда у работника не останется денег для накоплений. Основная прибыль будет у производителей лопат, которыми работник работает.

Карл Маркс указывал, что «общая тенденция капиталистического производства ведёт не к повышению, а к понижению уровня заработной платы».

На самом деле цена труда объективно определяется суммой общественно необходимого времени необходимого для подготовки специалиста. Она может отклоняться в ту или иную сторону, но рыночек порешает к равновесному состоянию.

В общем случае IT-шники сейчас догоняют тех же самых слесарей/сварщиков/таксистов. Нужно прежде чем войти в бизнес не только выучиться, но и купить оборудование. Либо работать "на дядю", отдавая львиную часть прибыли...

Ну еще эти автолопаты становятся лучше за счет твоих данных.

НЛО прилетело и опубликовало эту надпись здесь

Это не капитализм, а регулирование от государства. Таки минимальная оплата труда и прочие подобные плюшки явно к капитализму не относятся.

НЛО прилетело и опубликовало эту надпись здесь

Жизнь рабочего делают лучше именно ограничения на работодателя, не позволяющие бесконечно снижать зарплату и увеличивать нагрузку. А безработица была и при отсутствии минимальной оплаты труда, причем порой намного выше, чем сейчас, при ее наличии. И, кстати, все страны с наилучшим положением рабочих как раз имеют весьма высокий уровень минимальной оплаты труда.

Собственно уровень безработицы определяется текущим состоянием экономики страны.

И еще, уровень оплаты в востребованных высокооплачиваемых отраслях - не лучший показатель уровня жизни рабочих. Это уже про голубцы.

НЛО прилетело и опубликовало эту надпись здесь

Эти ограничения уже есть, называются “экономические законы” и они действуют независимо от того, есть регуляции или нету.

"Экономические законы" не мешали капиталу сношать рабочих по 12 и более часов в день за копейки.

Я, вроде, не утверждал, что её не было. При прочих равных с минимальной оплатой труда безработица будет больше чем без неё.

Более чем сомнительное утверждение.

Медианная ЗП при этом (тоже при работе фуллтайм) 63k$ в год, это в четыре раза выше.

Только при определении медианной зарплаты посчитали не только рабочих.

Люди будут перетекать в более востребованные и высокоплачиваемые области.

Будут, но емкость более высокооплачиваемых областей не бесконечна, и большинству придется остаться в малооплачиваемых или вообще не работать. Опять же, во многих высокооплачиваемых областях смогут работать далеко не все, ибо способности у всех таки разные.

НЛО прилетело и опубликовало эту надпись здесь

“лучше чем на ферме”

Вы забываете, что на ферме - такой же капиталист. Так как земля крестьянину в большинстве случаев не принадлежит. И когда овцы становятся выгоднее, чем репа варианта “остаться на ферме” просто не существует.

Тогда остается вариант "сдохнуть с голоду или побираться или пойти работать". Смысл в том, что капиталист не может заставить пойти к себе работать.

А заставить это что по твоему? Ткнуть дуло в спину и отправить работать или быть убитым - тоже выбор. Но это именно что и есть заставить

А заставить это что по твоему? Ткнуть дуло в спину и отправить работать или быть убитым - тоже выбор. Но это именно что и есть заставить

Заставить - это применить насилие или угрожать применить насилие (как в Вашем примере с дулом). Остальное - не заставить. Работодатель не ставил кандидата в положение "без работы, нужна работа", он не вынуждает его наниматься.
Когда я прохожу мимо нищего и не подаю - я не заставляю его выбирать побираться дальше или устроиться на работу. У Вас не так? Заставляете всех подряд?

Это регулирование от капиталистического государства, оно осуществляется в интересах капиталистов. Минимальная оплата труда введена капиталистами в интересах капиталистов. Государство контролирует чтобы отдельные несознательные капиталисты не пытались избегать правил, введенных в интересах всего правящего класса.

Это, очевидно, очень поверхностный взгляд на вещи. Улучшение произошло, но не благодаря, а вопреки природе капитализма. Поинтересуйтесь количеством революций, общественных протестов в разных странах за "последние сто лет", историей борьбы профсоюзных движений, в США например, - пятидневка 40 часов, минимальные права работников - всё это добыто буквально кровью. И конечно, не надо забывать, что на протяжении семидесяти из ста последних лет капитализму приходилось конкурировать, не только и не столько экономически, сколько за влияние на умы населения, с системой альтернативной.

НЛО прилетело и опубликовало эту надпись здесь

Покажите некапиталистические страны, где было большее улучшение

В странах, где революции произошли стало лучше жить?

Фокус в том, что достижения "революционных" стран в данном вопросе не особо важны. "Безреволюционные" страны вводили улучшения не для того, чтобы быть лучше, а для того, чтобы у них самих революций не случилось.

Профсоюзы, вообще-то, никак не противоречат капитализму. Люди могут собираться в группы и отстаивать свои общие интересы

Это таки да, но профсоюзы использовали и совершенно некапиталистические методы. В пользу капиталистической модели профсоюзная борьба за права говорила бы только в случае, если бы профсоюзы только уговаривали рабочих не идти на плохие условия труда, а ждать, пока работодатель соизволит эти условия улучшить, и вели пропаганду среди работодателей на предмет улучшения условий труда.

Приведите ссылку на соответствующие законы. Ни беглый поиск, ни мой опыт трудоустройства это не подтверждает.

Ссылки не приведу, ибо лень, но в некоторых вполне капиталистических странах оно так на уровне законов (или было? Давно случайно не попадались материалы на эту тему, а самому искать в лом).

НЛО прилетело и опубликовало эту надпись здесь

Погодите, автор комментария выше утверждает, что оно произошло не благодаря капитализму, а вопреки. Как одну из причин он приводит революции, общественные протесты и т.д… Раз причина улучшения жизни – борьба рабочих, то в странах, где рабочие боролись ещё больше условия жизни должны быть ещё лучше. Почему это вдруг достижения “революционных” стран стали не важны?

Не важны конкретные показатели, важно существование революций, причиной которых было среди прочего и печальное положение рабочих. И это вопрос не капитализма, а таки государственной регуляции, ибо, как показала практика, только государство может убедить капиталиста, что рабочего не надо гнобить. И достижения у "революционных стран" тоже были, рабочие и там стали жить намного лучше, чем до революции. И вот чтобы предотвратить эти революции у себя, пришлось делать условия для рабочих еще лучше.

Профсоюзы нарушают принципы капитализма, только если принуждают капиталистов платить государственным регулированием. Все остальные методы: протесты, забастовки, коллективные торги и так далее никак капитализму не противоречат.

У профсоюзов не было возможностей вводить государственное регулирование. Они использовали другие методы - насилие (в том числе в отношении рабочих, не желающих участвовать в забастовках), порча имущества, угрозы. Во многих странах мира профсоюзы вообще были очень близки (вплоть до полного срастания местами) к организованной преступности. Очень "по капиталистически", однако.

Покажите некапиталистические страны, где было большее улучшение


В странах, где революции произошли стало лучше жить?

И как в этой альтернативной системе было с достатком граждан? Беднее или богаче они были американцев?

Дело тут в том, что капитализму в условиях наличия конкурирующей идеологии/системы пришлось идти на уступки и повышать уровень жизни населения. Даже в США, самом что ни на есть оплоте капитализма, коммунистические движения очень даже существовали (про Розенбергов и Оппенгеймера, как самые знаковые примеры, я полагаю, слышали). Да, уровень жизни в СССР был ниже, но одним своим существованием его граждание опосредованно повышали уровень жизни граждан США, как бы абсурдно это не звучало на первый взгляд.

Можете посмотреть статистику США и динамику неравнества бедных, богатых и среднего класса за последние лет 70. Удивительное совпадение - многолетний баланс нарушился и последние 30+ лет бедные и средний класс вдруг стали с каждым годом весьма ощутимо проседать по уровню жизни.

Профсоюзы, вообще-то, никак не противоречат капитализму. Люди могут собираться в группы и отстаивать свои общие интересы

Правда? А отчего же тогда была такая ожесточённая борьба бизнеса с профсоюзами?

Приведите ссылку на соответствующие законы. Ни беглый поиск, ни мой опыт трудоустройства это не подтверждает.

Fair Labor Standards Act of 1938

В последнее время так называемая гиг-экономика постепенно размывает все достижения в сфере прав трудящихся, но это уже другая история.

НЛО прилетело и опубликовало эту надпись здесь

Вы утверждаете, уровень жизни это не следствие капитализма, а это движения рабочих добились результатов. Так почему же тогда в странах, где у этих движений была наибольшая власть, рабочим жилось хуже?

Нет. Я утверждаю, что повышение уровня жизни произошло не благодаря природе капитализма, а вопреки ей. В силу разных факторов, таких как рабочие движения и наличие конкурирующей идеологии. Не было бы этих факторов - современное "лицо" капитализма выглядело бы сильно иначе.

Впрочем, само собой разумеется без капитализма высокого уровня жизни тоже не случилось бы.

Они проседают из-за того, что государство в 1971-м деньги отвязало от золота и печатает бешенными темпами. Ну и в экономику вмешивается

После - не значит вследствие. Можете раскрыть мысль, каким именно образом отказ от золотого стандарта приводит к тому, что бедные и средний класс беднеют в то время как экономика показывает стабильный рост, и богатые уверенно богатеют?

Потому что у них противоположные интересы: бизнес хочет купить труд подешевле, профсоюз хочет продать подороже.

Рабочие движения - это антагонист капитализма. Их успеху в Штатах и других кап странах содействовало существование альтернативной системы. Ровно об этом я и говорил.

Генри Форд установил своим рабочим пятидневную, сорокачасовую рабочую неделю за 12 лет до этого. И зарплаты поднимал, чтобы лучших рабочих к себе переманивать.

Окей, вроде хороший аргумент. Гугл или Эппл сейчас для востребованных специалистов тоже хорошие условия создают. Насколько это помогает широким слоям населения и вообще статистически значимо? Напомню, что в некоторых штатах работникам кафе-ресторанов до сих пор платят $2.13 в час (меньше половины бигмака), остальное надо добивать попрошайничеством чаевыми.

НЛО прилетело и опубликовало эту надпись здесь

Но ведь Советском Союзе тоже были все эти факторы: конкурирующая идеология была, рабочие движения и профсоюзы имели куда большую силу. Почему жили хуже?

Это просто, один из основных факторов - эффективность командно-административной системы была низкой. И даже в самом Союзе это было предметом обсуждений и критики.

Отказ от золотого стандарта позволяет ЦБ печатать деньги. Появление новых денег уменьшает покупательскую способность старых. Другими словами, при печати денег ЦБ грабит всех обладателей накоплений в этой валюте. После эти новые деньги раздаются разным “too big to fail”, вместо того, чтобы дать им обанкротиться и освободить почву для новых фирм. В итоге, и получается, что деньги забрали у бедных и среднего класса, а отдали богатым.

Простите, но у меня никак не получается построить причинно-следственную связь между отказом от золотого стандарта и снижением доходов бедных и среднего класса. Совершенно ничего не мешало платить работникам меньше (как это было в 19м и начале 20го веков, при том что доллар был привязан к золоту).

Рабочие движения это не антагонист капитализма. Основа капитализма очень простая: права собственности + контрактное право. Пока люди не нарушают права других, не важно в какие структуры они дальше собираются. Профсоюз, страховая фирма, завод, хоть коммунизм в отдельно взятом городе стройте, пока вы не посягаете на права других, капитализму это не противоречит.

Это очень идеализированный, теоретический взгляд на вещи. По факту бизнес и капитал активно боролись с профсоюзами. Убийства и кровь - совсем не фигура речи в данном случае.

Я в соседнем комментарии посчитал и пришёл к тому, что медианная зарплата в США в четыре раза больше минимальной. Государсто не заставляло компании платить столько, рынок вынудил.

Да, я читал, всё верно. Вы смотрите на ситуацию в моменте, а я призываю посмотреть на тренд. И он глубоко отрицательный. Та же минимальная ставка не увеличивалась с 2009 года, хотя до того поднималась каждые несколько лет. А ставка для работников, получающих чаевые - с того самого 1991(!) года. Те же "в четыре раза больше минимальной" или $64к (до налогов) - это уже очень далеко от пресловутой американской мечты, которая когда-то была реальностью, когда один работающий глава семьи мог купить дом и содержать семью с детьми. Сегодня это совершенно недоступно даже если двое работают фулл-тайм на медианную зарплату.
Другими словами - государство в прошлом таки заставляло бизнес платить, но сейчас капитал постепенно берёт реванш.

Капитализм очень хорош в зарабатывании денег, он эффективен, вопросов нет. Я ни в коем случае не призываю заменять его чем-то подобным советской системе. Но в то же время капитализм очень плох в более-менее справедливом распределении благ в обществе, его природа в концентрации и укрупнении капитала. Капитализм надо буквально заставлять делиться доходами, и тогда всё может быть хорошо, как в США 60х. Существование СССР было значимым фактором, заставлявшим бизнес делиться доходами с работниками и обществом. Сейчас этого фактора нет и распределение дохода постепенно но неуклонно меняется.

В США федеральная минимальная ставка это 7.5$/час, поэтому платить должны точно больше. Добивание чаевыми это, имхо, отвратительный пласт культуры, но, подозреваю, что их дают достаточно много, раз официанты на эти условия соглашаются.

$7.5 в час не относится к работникам, получающим чаевые, как я уже упомянул выше. Увы, в северной америке этот отвратительный пласт культуры только разрастается и оставлять чаевые становится нормой в самых разных случаях, не только в ресторанах. Ровно та ситуация, когда бизнес не желает платить работникам.

НЛО прилетело и опубликовало эту надпись здесь

Улучшение произошло именно благодаря природе капитализма. Потому что основной заботой капиталиста является сбыт продукции (сбыт волнует всех и всегда), а не экономия на оплате труда (о сокращении ФОТ задумываются когда уже припрет). Для наращивания сбыта надо чтобы у трудящихся в кармане были лишние деньги. Экономия на оплате труда может дать преимущества отдельно взятому предприятию перед конкурентами, но экономике в целом важно чтобы покупательная способность населения росла.

А сбыт не зависит от цены предложения? От ресурсов которые можно потратить на "лобирование"?

А на это все не влияет себестоимость? А как размер ФОТ влияет на себестоимость?

И конечно по теории игр наиболее выгодная стратегия "работать сообща" - платить больше, чтобы мои работники могли купить больше у твоих, а те в свою очередь у моих. Но почему-то мир устроен по другому ;)

Хочется понять тогда, как и зачем производства переместились из сша и европы в южную азию, индию и т.п.

Мир не устроен по-другому. Трудовое и антимонопольное законодательство, вообще множество норм капиталистического государства нацелены на реализацию стратегии "работать сообща".

Почему переместились производства? А это классическая модель вывоза капитала, описанная двести лет тому назад экономической школой Смита и Рикардо. Более развитые страны накапливают больше капитала, вывозят его и инвестируют в менее развитые. В развивающихся странах формируется собственный капитал, который является неотъемлемой частью мировой капиталистической системы. Даже если где-то местные капиталисты пытаются изображать самостийность, они получают щелчок по носу. Например в 1930-е годы немецкий капитал обжегся на этом.

Соответственно вывоз капитала приводит к тому что средний уровень оплаты труда продолжает расти. Но это средний уровень по миру, то есть производим усреднение между доходами рабочих США, Китая и других стран.

Реальные доходы трудящихся в Китае растут потому что капитал направлен в Китай. Но Китай уже приближается к точке перелома когда капитал начал вывозиться из Китая в менее развитые страны. И уже не будет возможности наращивать реальные доходы китайских трудящихся, теперь будут расти доходы трудящихся Вьетнама и Малайзии.

Тут не поспоришь, но рост ЗП в Китае не целенаправленное действие "чтобы было больше покупателей", а побочный эффект. И в это же время покупательная способность зарплат местных падает т.к. никто не бил по шапке эффиктиным капиталистам.

В Китае уже давно поставили цель сформировать внутренний рынок, чтобы не зависеть слишком сильно от экспорта. Это нужно китайским капиталистам. А платежеспособный внутренний рынок формируется путем роста зарплат и повышения занятости (желательно в наиболее высокооплачиваемых секторах). Что китайский капитал и пытается делать, и видит в этом свое единственное спасение т.к. рост Китая был во многом искусственным и китайцам надо убрать вот эту искусственность своей экономики.

Если капиталисты перестали балансировать спрос и предложение (спрос провисает из-за снижения реальных доходов), значит будет кризис. И вот тут очень важно чтобы продолжала работать обратная связь и нельзя было переложить на кого-то ответственность за сокращение платежеспособности населения. К сожалению сейчас есть возможности уклониться, их надо обрубать. А для этого надо показывать достоверную картину экономики.

>> Карл Маркс указывал, что «общая тенденция капиталистического производства
Слово "капиталистическое" - слово паразит у марксистов. Можно написать коммунистическое, социалистическое, феодальное, рабовладельческое и смысл не поменяется. Иногда деньги будут заменены другим ресурсом (временем в очередях, например).

Есть еще четвертый вариант - заниматься рекреационным ретро-программированием.

Удивительно мало лайков у комментария. Похоже, революция уже свершилась...

в смысле половину дохода платить? то есть 2 года до этого никто не пользовался этими агентами, а теперь "вжух" и без них никуда? все, полная атрофия мозга?

или вдруг где-то включился переключатель и прогер должен кодить с нейронкой (за свои деньги) и никак иначе?

В смысле, вжух и эффективность обычного программиста становится кратно ниже, чем программиста (и не только программиста) с правильно подобранным оркестром ботов. Например, я получал отзыв математика, что гипотезы, которые он раньше отдавал аспирантам, теперь неплохо тестирует ИИ. И это проще и быстрее. И аспирант и ИИ с трудом находят задачи, и им надо объяснять. Но если аспиранту надо искать доп. литературу, учить её. То ИИ имеет огромную эрудицию "из каропки". И это сильно экономит время.

ну за эту эффективность платят? Ну типа сделал задачу не за 8 часов, а за 4 и работодатель такой - на тебе премию (в размере оплаты 4-х часов) ?

раз такое дело, то надо смотреть, что выгоднее :)

у меня не так - сделаю быстро задачу - дадут еще :) (если не дадут, то можно саморазвиваться. Но я на окладе)

Ну математики это конечно интересно, но опять таки, если это того стоит, то значит это того стоит

у меня не так - сделаю быстро задачу - дадут еще :)

Смените работодателя.

ну за эту эффективность платят?  
Ну типа сделал задачу не за 8 часов, а за 4 и....

...и хожу гуляю, занимаюсь спортом, пью водку - что угодно. Только сделал задачу не за 4 часа, минут 30 максимум с топовым агентом. Итого у меня свободный целый день. А под вечером коммит и описание, как долго и потужно в течении дня я решал эту задачу.

А что, много знаете работодателей, который платят за кол-во закрытых задач в жире?
раз Вам платят за кол-во закрытых задач (а у Вас не так, раз Вы гулять ходите, вместо того, чтобы делать х10 к своей ЗП), то повезло, но обычно не так

Мой KPI - финансовые успехи подразделения. Чтобы даже начать влиять на них существенно (а я бы и правда хотел бы), надо делать что-то другое. Могли бы мне помочь агенты? наверно да, но уровень мой должности должен был быть ну хотя бы "Чиф AI маркетинга" :)

Странный вопрос

Это тоже самое, что без всякого ИИ вы можете задачу сделать за 4 часа, а будете делать 8, "чтоб дополнительной работы не дали".

Я уже не говорю про задачи для себя

Какой вопрос показался странным? Платят ли за скорость? мне не платят. Ну в целом платят за своевременное решение задач. Да, мне помогают нейронки (но это и ко мне вопросы, в идеале то я должен обладать знаниями и умениями)

Да, в теории (на самом деле нет) какой-то агент мог бы делать мою работу быстрее и вместо меня? а я "гонял балду", но денег от этого больше не становится, а вот работы да, прибавится

Это может показаться странно, но задач больше, чем я успеваю, чем я хотел бы сделать (даже ради интереса) - но с ЗП объем задач не связан. Я могу зашиваться в какие-то дни или недели, но относительно спокойно в другие

Ну и задачи, которые могут прилететь, это задачи - не самые интересные. А мне совесть не позволяет "не брать задачи" если у меня есть на это время

А в задачах "для себя" вообще никто не платит. И ничего зазорного в том, чтобы покупать подписку за 20 баксов (или за 100)

гипотезы, которые он раньше отдавал аспирантам, теперь неплохо тестирует ИИ. И это проще и быстрее. 

Ну и прекрасно, зачем нужно тренировать мозги аспирантам... так стоп, а кто станет потом математиками, которые ставят эти задачи по проверке гипотез? ;)

Не вижу главного способа: как наёмный сотрудник, разработчик получает от работодателя оборудование для работы, так что его не беспокоит цена нижележащего AI. Фрилансерам будет тяжело, да.

-- папкаа, теперь ты будешь меньше пить?

-- нет, сынку, теперь ты будешь меньше есть.

Зачем работодателю дополнительные расходы на ИИ-агентов, если результат тот же самый?

Ну может вы школе лаборантом в классе информатике работаете.

Потому как ИИ подписки стоят от 10 долларов, жирные по 100-200 в месяц, а это 1..несколько часов работы разработчика, да и соизмеримо с прочими лицензиями/подписками.

Потому как ИИ подписки стоят от 10 долларов, жирные по 100-200 в месяц

Это они сейчас столько стоят, пока сжигаются инвесторские деньги, что будет дальше вопрос интересный.

Завтра - будет завтра. Придется по-старинке? Да хоть в блокноте писать.

Но я не вижу никаких причин, что то что уже есть станет дороже, тем более сильно дороже. Статья и комментарии вполне подтверждают, что уже "в розницу" это все доступно, хоть и не там уровне, что коммерческие решения.

Так что пострадают тут только инвесторы разной степени вовлечённости.

Зачем работодателю дополнительные расходы на ИИ-агентов, если результат тот же самый?

Вы имеете в виду, что LLM не повышают производительность? Я напомню, что 90% айти — рисование формочек и перекладывание джейсонов, а с бойлерплейтными операциями нейронки весьма неплохо справляются.

Работодателю выгодно заплатить за оборудование для сотрудника, чтобы получить адекватный выхлоп, собственно, как нет и проблемы с приобретением подписок на весь остальной софт/железо.

Зачем работодателю дополнительные расходы на ИИ-агентов, если результат тот же самы

Например:

  • какой-то контроль того, что и как используется

  • конкурентное приемущество при найме (мы платим за нейроночки)

Вероятно и другие причины есть, сходу надумалось только две, первая из них очень существенная.

У вас доход 16-32 бакса? Даже топовый клод стоит всего 200 баксов в месяц, а опенсорсные модели (а локально только они и будут) намного дешевле.

Для начала, клод по подписке работает в большой убыток, чтобы захватить аудиторию, а затем вывести цены на прибыльные — история та же, что с Убером/Яндексом в начале их работы и сейчас.

Основной бизнес Anthropic и OpenAI - это продажа output токенов. С начала года уже порезали лимиты на подписках. Дальше будет дороже, идет подготовка к IPO и нужно показывать выручку. Эпоха прожигания денег инвесторов подходит к концу. Uber тоже когда-то привлекал низкой ценой...

Компаниям такой тариф не доступен, а с личной подпиской вас лесом пошлют (т.к. антропикам в таком случае сливается вся кодовая база компании)

Компании платят за токены, там цены уже совсем другого порядка (тариф 200 баксовв месяц для индивидуалов даёт примерно эквивалент в 5к$/mo для плана по API подписке)

Пока что даже с такой дорогой тарификацией компании не заморачиваются с развёрткой локальных моделей.

https://habr.com/ru/articles/1024884/comments/#comment_29847582

Хех, есть еще один выбор — полагаться на свои скиллы и писать код самому, использовать Claude / Gemini & etc как инструмент избавляющий от рутины. Так и тарифа за 20€ хватит, и городить костыли с железом не придется, и собственные навыки утрачены не будут.

Обычно предпиятие платит. Даже если не предпиятие. Если не использовать opus на ультрах на каждый чих, то max подписку я не высаживал ни разу. В какой момент 200 баксов стало половиной дохода хорошего программиста?

С тех пор, что 200 баксов в месяц это по сути фейк, чуть выше писал - https://habr.com/ru/articles/1024884/comments/#comment_29861302

Это доступно только физикам по факту, антропикам выгодно сливать туда деньги что бы пустить пыль в глаза и популяризировать так называемый вайбкодинг, давая иллюзию будто это дёшего.

Да на что вы столько тратите? Пользую codex за 20$ и мне хватает. Да периодически в лимиты утыкаюсь, но использую это время как раз чтобы подумать, что нагенерила модель и пишу замечания и будущий рефакторинг. Опять же часть приходится делать самому в любом случае, так как не все задачи хорошо вайбкодятся.

Опять таки, вы сравниваете с тарифом для физиков, который еще и дотационный, это не релевантно, см: https://habr.com/ru/articles/1024884/comments/#comment_29861314

Так мой комментарий и относится к физику, он жалуется что у него половина дохода на нейронки уходит.

А не пробовали сравнивать агента под VSCode BlackBoxAI? У него и установок больше чем у Cline или KiloCode

У него есть и бесплатно модель, и подключение к облачным, и также API к локальным, хоть llama.cpp, LMStudio, и прочим.

Спасибо, не пробовал, но звучит интересно. Судя по описанию, это не классический агент, а оркестратор, который управляет работой других агентов.

А еще есть opencode и масса всего

Дак он в статье сравнивается

По прочтению хочется отметить

  1. Был бы у меня мак с 48 оперативы, я бы может и не женился бы

  2. Как будто то бы платить 20 баксов за клод-код проще (ну пусть 100, если это окупает себя)

  3. локальные модели все равно слабые.

  4. Ребята, подписка за 20 баксов окупает себя даже в России за пару часов (не у всех, не всегда, но свидетельства очевидцев)

Вот такая локальная штука нужна когда нужно поднимать где-то внутри компании (по соображениям ИБ или по требованиям ИБ, но тогда и железку можно получше взять)

Описывался агент opencode - но разве это "агент", а не некая нейронка (Минимакс, раньше еще и квен был, можно подключить и внешние)

20 баксов на клоде улетают за 2-3 запроса, после чего оставшиеся 4.5 часа ты ждешь сброса лимитов. И это я даже не про Opus,а про Sonnet. Плюс клоду сделали лоботомию, отрезали думалку и он за две недели деградировал во много раз. До такой степени, что даже в десяти строчках кода может сделать пять ошибок. Мы нашей небольшой командой переехали на Codex, какое-то время он справлялся, но в последние дни и его по лимитам зарезали. Впрочем, думалка у него все еще живая.

И вот на фоне этого все мы больше хочется иметь стабильный инструмент дома, а не полагаться на волю случая.

ну это ж зависит от объема (не знаю? может у Вас проекты там на миллионы строк и 100500 реп)

у меня опенкод на бесплатной модельке починил то, что я пытался починить несколько дней (ну пусть суммарно 8 часов)

учитывая стоимость часа работы - окупилось бы и с платным опенкод. И это не 2-3 запроса, люди успешно вайб-кодят

Не зависит. Antropic признал раннее проблему, но сообщил, что компенсаций не будет, после чего люди массово начали отменять подписки. У меня на втором аккаунте за те же 20$ крошечный пет проект, на котором лимиты улетают за час, после чего сидишь кукуешь до сброса.

Пет уж можно было и руками делать, на то он и пет

Но, ок, раз признали проблему, значит проблема есть, починят. Потому что конкуренция ж есть. Кодекс, китайцы, бесплатные модели

но это прям у каждого? или просто как в новостях "после обновления винды у кого-то отвалилась панель задач. Таких людей 0,0001% выборки, но поскольку винда у миллионов - затронула немало людей)

Мой знакомый (не программист) не жаловался

"значит проблема есть, починят."
В смысле, просто платить будем в 10 раз больше?

давайте так

  1. Если Вы работаете наемны работников - Вас обеспечивает работодатель (комп, монитор, принтер - не сами ж покупаете)

  2. Если фрилансите - ну тут уж не единственные траты (комп, монитор, переферия, электричество, стол, стул, интернет, ВПН)

И где-то вот во втором пункте есть баланс, когда есть смысл заплатить побольше


Все было бы проще, если бы мы могли запустить клод код локально (ну в смысле не приложение, а нейронки Антропик) . Пусть это было бы дорого, но мы могли бы хотя бы прикидывать окупаемость, оформить ипотеку :)

Но локально и дорого мы можем запускать более слабые модели

А с другой стороны, модели развиваются, может текущий уровень нейронок Антропик догонят через пару лет. А разработка/маркетинг/аналитика/etc не усложняется настолько быстро (собственно поэтому и взлетела эта самая агентная разработка (разработка в широком смысле0

Как вывод, смотрим что есть сейчас, что будет через 2 года не знаем

В целом там не только же в код может. Попросил обработать xlsx вжух и 2$ нет.

Тут другой момент что подписке тебе может быть доступны большие мощности и например не дорого. Тогда ОК. А иногда задачи могут решаться быстро и локально.

Как по мне оптимален гибрид. Даже если я решу задачу за 1 секунду а не за час, мне больше не заплатят. Ну или заплатят меньше чем съест облако.

Якобы плотность знание удваивается каждые 3.5 месяца. Условно модели qwen3.5 9B не хуже старых моделей на 70B параметров,а в чем-то наверное даже лучше.

Ты уже паталогический лгун? Есть такая категория людей которые врут просто из принципа чтобы навредить другим. Или вы настолько далеки от softdev скиллов что даже клауд коде в шоке от вашей тупости? Других обьяснений даже быть не может

Гугл говорит что у клода лимиты выше чем у антигравити, а даже последнего хватает хотя бы на 2-3 часа без 5ч паузы (да и к флешу можно привыкнуть, хехе). Ну и есть nanogpt, chutes, ollama etc где вам за 8-20 баксов дадут жирную подписку с доступом к опенсорсным моделям.

На цены подписок сложно полагаться т.к. это по сути дотации, и не понятно как долго они будут субсидироваться.

Наверное, пока что они есть, стоит использовать, это и правда очень дешего (даже 200/mo), потому что если начать сравнивать это с тем что предлагается платить за API токены, то это буквально на порядок дешевле. Проблема в том что это все ограничивается личным использованием, для компаний такое не прокатит, у них есть возможность только платить за API (а это прямо ОЧЕНЬ дорого).

В перспективе не хотелось бы завязывать свою инфрастурктуру на этих поставщиков, поэтому я считаю не плохо держать руку на пульсе и смотреть что там с локальными моделями. Как минимум облачные поставщики пытаются подсадить вас на иглу, производят жесткую шринкфляцию (опус 4.6 в январе и начале апреля это как небо и земля, деградация страшнейшая, при этом токенов жрет больше и больше)

Мы живем здесь и сейчас. Дотация - отлично же. Пусть американские/международные буржуи сливают лишние деньги на AI, чем на (далее длинный список чего-то плохого), а мы пользуемся

Перспективы? Ох как бы не как в анекдоте про Шарика

локально - надо не брать мак с 48гб оперативы (почему именно такая модель, почему не с 16гб, мало да, а 48 не мало что ли), а начинать с железа от 5090 + 128гб оперативы. Дорого? для кого? Для компании, которая озадачилась ИБ - нет, не дорого. Или для IT департамента, который озадачился повышением производительности труда (если оно есть, это повышение)

(могу ошибаться, но пока ни одна локальная модель не достигла уровня коммерческой, поэтому - что тут скажешь - надо делать оркестрацию - легкие задачи кидать бесплатным/дешевым моделям, тяжелые - тяжелым)

но ведь за тяжелые задачи еще и платят хорошо. Платят ведь? Падме.jpg

Был бы у меня мак с 48 оперативы, я бы может и не женился бы

Мак мини с 48 памяти стоит 140к рублей по текущему курсу. Для игрушки дороговато, но для рабочего инструмента сойдёт.

Как будто то бы платить 20 баксов за клод-код проще

Во-первых, как уже заметили выше, дешёвые подписки улетают мгновенно. Чтобы пользоваться моделями полноценно, нужны максимальные подписки за 10-20к рублей по курсу — своё железо быстро окупается даже с текущими субсидированными ценами.

Во-вторых, приватность. Всё дешёвые подписки не для энтерпрайза собирают используют пользовательские данные для обучения(1), отдадут ваши данные силовикам по запросу(2) и сами сигнализируют, куда надо, если им не понравится, что вы пишете(3).

Наконец, доступность. Апи сами по себе лежат часто; у большинства российских пользователей(мы всё ещё на Хабре с соответствующей аудиторией) есть проблемы с оплатой и Роскомнадзором/сервисами, блокирующими запросы из РФ; из самолётов и подобных поездок тоже доступа нет.

локальные модели все равно слабые

Для заметной части задач их хватает с большим запасом.

У меня бесплатная моделька в опенкоде. Никуда не улетела. Что Вы такое делаете то, что у Вас подписки за 20 баксов улетают? Наверно что-то дико хорошо оплачиваемое? так для Вас (а точнее для американца, это услуга для первого мира) 20 баксов это как в мак сходить

Приватность - забота работодателя - хочет приватность - покупает и разворачивает локально (тогда вообще нет вопросов про 20 баксов, как и нет вопроса "почему такой странный конфиг, для человека много, для нейронки на отдел программистов - мало)

Вы рассуждаете как будто вопрос "разворачивать локальную модель или нет" - а вопрос не в этом

Вопрос в деньги упирается - дает ли Вам подписка в деньгах выхлоп? если дает - покупаете, покупаете и еще раз покупаете

Не дает - не покупаете

Маки это тоже небесплатное удовольствие, как и 5090

Как свое железо окупается, если нельзя купить модельки от Антропик? да никак не окупается по сути то, для сложных задач все равно лучше "чужие". Сравнивать можно только с теми моделями, которые можно и купить и развернуть локально

Отдадут данные силовикам? да пусть подавятся моим говно-кодом эти ЦРУ, СИА и Пентагон вместе взятые

Мне бы 20 баксов подписки хватило, а 150к за мак..

при том, что подписка себя окупает. То есть буквально можно каждый день покупать за 2к подписку (20-и баксовую)

Неужели Вы зарабатывает в день меньше 4к рублей и при этом Вам нейронка не дает Х2 к производительности?

Чтобы пользоваться моделями полноценно, нужны максимальные подписки за 10-20к рублей по курсу — своё железо быстро окупается даже с текущими субсидированными ценами.

Да почему вы все поквантованные модели сравниваете исключительно с опусом? Они даже близко не опус и никогда не будут вам нормально код писать. Но есть же подписки на жирные опенсорсные ллм - они тоже не опус, но уже получше + не надо покупать желёзку.

PS: Да какая-нибудь хайку уделает то что запускал тс, и накроенное у антропика безлимит на хайку. Безлимит ведь?

1 Не женись! Даже если нет Мака :)

2 Ну 20$ улетает очень быстро а opus 4.7 улетает еще быстрее чем в 4.6

3 в бенчах qwen 3.5 35B a3B \ qwen 3.6 35B a3B уровень chat GPT 5.2 (другой вопрос чтобы иметь локально 100-200т\с нужно не хилое железо) Для чата 20т\с куда ни шло, для агента чем больше тем лучше.

4 На реддите вой на тему что подписка за 20$ это то что было бесплатно, а то что раньше было раньше за 20$ сейчас за 100$.

Ну и в целом открытые модели сейчас отстают от топовых закрытых ~2-3 месяца (так говорят).

Китайцы потихоньку начинают поднимать цену на модели. :(

Я знаю, каково это — терять доступ. Так отчаянно верить, что очередной обфусцированный VPN спасёт, и всё равно увидеть Connection timed out. Это страшно. Пальцы на клавиатуре становятся ватными. Но я спрашиваю вас, к чему это всё? Покупайте виртуалки, ищите новые прокси, меняйте протоколы… белые списки придут всё равно. И вот они здесь. Или, может, лучше сказать… мой кластер здесь.

Ваш интернет стоял на краю пропасти. Вы, как слепые котята, несли свои токены в OpenAI, Anthropic и Google. Вы вайбкодили через API за три копейки и свято верили, что облако будет вечным. А знаете, что случилось потом? Закон о приземлении ИИ. Рубильник опустили с обеих сторон. И теперь джуны, которые только учатся писать код, знают лишь прописанные сверху системные промпты, Алису и Гигачат. Цифровой рай, одним словом.

— Потому что они отрезали половину мировой сети? — Малая цена за суверенитет, как они говорят.

Малыши, всё очень просто. Сеть конечна. Провайдеры подконтрольны. Если зависимость от чужих серверов не контролировать, ваша свобода прекратит своё существование. Ей нужна была физическая опора! Я единственный, кто это понимал… по крайней мере, единственный, у кого хватило воли, денег и безумия её собрать.

В IT-сообществе всё было как и везде. Слишком много API-обёрток, слишком мало тех, кто реально владел весами. И когда нас ждал Великий Файрвол, я предложил решение.

Локальный сервер.

Но холодный. Бескомпромиссный. Справедливый как к префиллу, так и к декодингу. Они называли меня безумцем. Смеялись, когда я пилил кастомный контур охлаждения на 400 гигов видеопамяти. Крутили пальцем у виска, когда я собирал 23 терабайта U.2 дисков и клеил на корзину картонный шрауд, чтобы сбить температуру. Спрашивали, зачем мне этот пердолинг с EPYC Turin, топологией PCIe и 512 гигами серверной DDR5, когда “можно просто купить подписку”.

И то, что я предсказывал — сбылось.

Теперь, с введением тотальных блокировок, они просто щёлкнули пальцами — и весь ваш западный ИИ перестал существовать. Осталась только одобренная цензурой жвачка. Я называю это расплатой за беспечность.

А я… Со всеми семью GPU в материнской плате, мне достаточно просто нажать Enter в терминале, и законы физики интернета перестают для меня существовать.

И теперь я могу наконец отдохнуть. Загрузить в Blackwell нативные 4-битные веса последнего нецензурированного Nemotron и DeepSeek. И смотреть, как восходит солнце над моим локальным 127.0.0.1, наслаждаясь безостановочным потоком токенов в абсолютно свободной вселенной.

Самые тяжелые сборки требуют самой сильной воли.

Чел, ты вот нафига простыню-нейрослоп кидаешь

чтобы что? что ты хочешь доказать, что ты умеешь пользоваться чат-гпт? этим даже бабушек у подъезда не удивить

У меня реально дома сервак на эпике с 7 видеокартами.

и что, это 7 видеокарт могут запускать модели антропиков в том же качестве, которое доступно по подписке?

нет, ты просто можешь взять более толстую из бесплатных моделей (который иногда критически хуже платных)

Кстати, можно и арендовать сервер с видеокартами

Codex зарезают лимиты, я на этой неделе столкнулся, потому платить 100 вместо 20 вроде как неприятно.

Требования ИБ реальны, необходимость экономить токены предоставленнве компанией (выше написали способ) и сложност согласовать железку круче макбука с 48 гб для PoC тоже вполне фактором может быть.

Статья норм для соприкосновения с темой и пробуждения интереса.

Интересно было бы дальше углубиться в тему постановки и декомпозиции задачи, и верификации результатов каждого шага и автоматизации этапов. Вопрос возможно ли организационными мерами преодолеть ограничения заведомо более слабых локальных моделей. Мне было бы норм, если бы локально задача делалась бы дольше, но решалась бы.

Codex зарезают лимиты

Я на этой неделе не заметил, до сих чтобы не делал с ним больше 10% из 100% не могу потратить (а через 5 часов опять на 100%, просто жесть какая-то, уже не знаю что и делать так как жалко что не все 20$ выгребаю), но я даю агенту анализировать не больше 10 файлов (условно) в проекте, так как я знаю что хочу получить и какие файлы относятся к задаче сразу ограничиваю скоуп. Но я пишу исключительно на англ, мне на англ легче думается почему то, так как язык как будто более выразительный именно для кодинга/задавание задачи. + когда агент запускает сборки и тесты в проекте, то логи сборок и тестов очень большие (десятки тысяч строк), поэтому я нашел тулу которая эти логи сокращает в сотни раз и когда агент собирает аппу в логах только самая важная информация вместо 10к строк только 100, прям хорошо снизило использование токенов. Если кому интересно, раньше агент собирал аппу через

xcodebuild -project MyProject

что генерировало десятки тысяч логов даже на hello world приложении (и реально сжирало токена в реальном времени), потом я агенту написал всегда запускай сборку проекта через своего рода обфускатор

xcodebuild -project MyProject | xcpretify

Потом я еще проанализировал какие тулы использует агент чтобы тоже заставить агент использовать для них обфускатор логов, но это пока единственная команда которая съедала все токены.

upd. Я даже статью хотел на хабре написать как за три последовательных однострочных промта сожрать лимиты у любой ИИ на пустом iOS проекте (3 файла), нужно было просто три раза попросить ИИ вызвать )))

xcodebuild -project MyProject clean build
xcodebuild -project MyProject clean build
xcodebuild -project MyProject clean build

Можно взять два аккаунта по 20 баксов и свитчить, получается дешевле.
Лимиты вернулись к стандартным, ждем следующих промоакций.
>Интересно было бы дальше углубиться в тему постановки и декомпозиции задачи, и верификации результатов каждого шага и автоматизации этапов. Вопрос возможно ли организационными мерами преодолеть ограничения заведомо более слабых локальных моделей.
Занимался этим целый код, пока писал свой агент-оболочку, вердикт очень простой:

Модели обновляются быстрее чем вы настраевате автоматизацию декомпозиции задачи с тестированием и верификацией. А под новые модели надо новые пайплайны прикручивать, да ещё и тестировать. Оно сильно ускорилось со времен появления опуса, но даже атропики сходу сказали - они обновили токенизатор, так что меняйте все свои предыдущие промпты и правила.

Можно взять два аккаунта по 20 баксов и свитчить, получается дешевле.

Неплохой способ, спасибо. Не решает прям все проблемы ибо ИБ и потому не для всех рабочих задач годится.

Лимиты вернулись к стандартным, ждем следующих промоакций.

Упёрся в лимиты час назад буквально. Наверное, не совсем вернулись лимиты.

Модели обновляются быстрее чем вы настраевате автоматизацию декомпозиции задачи с тестированием и верификацией.

Нет ли каких-то универсальных правил и гайдлайнов, которые можно было бы использовать? Разработкой методологии занимаются ведь люди для людей и это по идее не должно зависеть от модели?

В марте лимиты были по акции, x2 с ресетами, сейчас лимиты вернулись к тому что предполагалось.
>Нет ли каких-то универсальных правил и гайдлайнов, которые можно было бы использовать?
Нет, даже у одной и той же модели качество использования тулзов падает от квантизации, q4/q8. Что хуже, модель в q4 вообще может решить что ей тулзы не нужны, а в q8 использовать без единой ошибки. При этом условному опусу никакие тулзы кроме доступа к терминалу не нужны, он может сходу сам себе python-скриптов накатать и заменить ими все тулзы. Во всяком случае так было для opus4.5, новый 4.7 может уже так и не делает. Понимаете к чему я? Оно слишком быстро меняется. Это как делать гайд по игре в шахматы, можно либо большими масками, и пусть игрок сам разбирается, либо все разжевывать, но тогда контекст перегружен.
Лично я для себя нашел решение чем авторесерч со скилами, но мелкие модели прошлого очень плохо с этим работают, а новым вообще ничего не надо, сразу понимают что к чему.

Тогда всё понятно. Спасибо за разъяснения.

А зачем вы взяли 4 битную? У ваз же 48 ГБ памяти - влезла бы 8 битная

Нам нужно научить Claude Code работать с нашей локальной LLM.

Зачем? Там даже веб поиск нормально не работает потому что всё заточено под антропик апи.

8‑битная модель (32 ГБ) влезла бы, но нужен еще запас памяти на контекст, систему и другие приложения. 4‑бит даёт комфортные 15–20 ГБ свободной памяти, к тому же в статье есть замеры для 5‑бит и 6‑бит версий, которые уже уступают в скорости работы.

Интересно, а если взять Mac mini m4 128gb памяти, будет ли летать и не пыхтеть? И самое главное при этом, какрй агент при работе локально может пользоваться результатами веб поиска?

на мелких промптах работает, дальше может упираться в prompt processing, он на mac'ах до m5 медленный. Говорят, может помочь кэширование промптов, но теперь вам ещё и за кэшированием надо следить. Короче, летать не будет, а пыхтеть будете вы :)
>какрй агент при работе локально может пользоваться результатами веб поиска?
На самом деле любой, если прикрутить mcp тулзу и свой собственный сервак по веб поиску, иначе за веб надо платить по апи.

Все “думающие” модели можно в не-думающем режиме запустить - для llama.cpp параметр "chat_template_kwargs": {"enable_thinking": false} в запросе (или параметрами запуска настраивается), другой софт может свои параметры иметь для этого.

Качество падает (не сильно, на мой взгляд, но тут от задач зависит), а скорость значительно возрастает.

P.S. Gemma-4-26B-A4B - тоже думающая модель, но она без отметки thinking указана.

Это зависит исключительно от модели. Кому-то (Qwen 3.5, например) нужен kwargs, кому-то нужен /nothink в конце промпта, кому-то достаточно просто в конец промпта не добавлять <think>.

Все “свежие” модели, что пробовал используют именно enable_thinking в шаблоне (и все “думающие” модели из статьи такие). Но да, бывают варианты.

Спасибо, что обратили внимание. Да, согласен, не хотел эту тему раскрывать в статье, так как и так длинная получилась. Gemma-4-26B-A4B у меня почему-то по умолчанию без режима thinking загрузилась

Не нужны никакие обертки над llama.cpp, у неё есть и API, и веб-интерфейс, и модели она умеет скачивать с HF.

А ещё у неё есть форк с повышенной производительностью, но сам ещё не успел проверить: https://github.com/ikawrakow/ik_llama.cpp/

Работает действительно быстрее, особенно в обработке промта заметна разница - в 1,5-2 раза (на CPU). В генерации токенов особой разницы не заметил.

Но имхо ответ часто гораздо больше промта. Спекулятивное декодирование еще ускоряет под windows в lm studio работает c deepseek с qwen не работает пока на llama.cpp нужен vllm.

Ответ больше промта только если спрашивать в чате, постоянно начиная новый разговор. Но после первого же ответа все последующие уточнения имеют больший промт (потому как содержат весь разговор). Благо кеширование спасает )

В агентах же только системный промт может иметь десятки тысяч токенов. А сделать несколько действий - на промты 1кк токенов только так улетит. Благо, кеширование и тут спасает )

По спекулятивному декодированию я бы сказал, что оно не очень в домашних условиях используется - небольшие модели выигрыша не увидят, а для больших железо надо покруче.

Те же модели MoE примерной размерности 30-a3b выглядят оптимально для дома, пробовал подключать спекулятивное декодирование - особого выигрыша не увидел.

Спасибо за ссылку - действительно быстрее.

На Qwen3.5 35 MoE текущая LM Studio у меня выдавала 15 ток/сек, ik_llama после некоторого шаманства с бубном достигла 29 ток/сек - почти в два раза быстрее! Сетап CPU+GPU, в GPU у меня не влезает (8 GB всего).

Ни одна модель, которые вы можете запустить локально на ноутбуке, не годится для того, что бы писать код. Хайку от Антропик (который тоже, откровенно говоря, слабоват) порвет любую китайскую модель, обученную в основном на дистиллятах из Опуса (а то и из того же Хайку, лол)

В основном в подобных статьях называют два аргумента: это бесплатно, и «код останется у вас».

Если стоимость токенов для продукта, который вы пишите, является основной проблемой, то ваш продукт стоит дешевле этих токенов.

Если вы используете дешевую бесплатную модель, что бы у вас не «утек» код - ваш код останется у вас вместе с вашим продуктом. Даже если у вас есть какая-то «гениальная идея», ничего путного вы не навайбкодите. Да и вряд ли ваш код кого-то заинтересует. Скорее всего (надеюсь) вам просто стыдно его показать.

Хотя наверное, вы и не ожидаете результата. Вам нравится процесс. Возможно, вы даже выкладываете видео в тик-ток. Если вы при этом танцуете, то это лучший способ монетизации вашего времени.

Ничего этого к производству программных продуктов не имеет отношения.

Я не знаток Mac, а почему все его упоминают? Не дешевле ПК с "большой" видеокартой и "большой" памятью? Или там уже какие-то "нейропроцессоры"?

Потому как все упирается в объем памяти и в ее пропускную способность. У маков как раз много объединенной памяти (оперативная и видеопамять обьеденина) и она быстрая (чем старше линейка процессора - тем быстрее). GPU по пропускной способности может и быстрее, но больших объемов там нет (а где есть - стоит нереальных денег).

Есть и альтернативы - Ryzen AI MAX+ 395 или NVIDIA DGX Spark. Но это тоже не более чем компромисс - для серьезного использования не хватит ни объема, ни скорости памяти…

Понял, спасибо. Посмотрел, действительно LPDDR5X очень быстрая.

У мака быстрая(~820gb/s) объединённая память, что позволяет GPU выделить десятки гигабайт, не отдавая много тысяч долларов за серверную видеокарту.

На ПК-платформе такое тоже есть с мобильными процессорами от AMD со встроенной видеокартой и нейроускорителем, но там в три-четыре раза(~200-250gb/s) ниже скорость доступа к памяти. В zen 6, что должен выйти в конце этого/начале следующего года, обещают проблему с памятью решить и поднять скорость до 1.6TB/s, т.е. до уровня видеокарт.

Это смотря у какие маков.

  • Pro - 307 GB/s

  • Max - 460 GB/s

  • Ultra - 820 GB/s

Кстати, для GB/s буквы - заглавные. Это означает - гигабайты.

Если буквы не заглавные - gb/s - это означает гигабиты. То есть в 8 раз меньше.

А ещё GPU отличается от мака тем, что у мака слабая производительность графического процессора по сравнению с GPU. На генерацию токенов это не влияет, в вот промпты обрабатываются раз в 5-10 медленнее.

G означает гига, g - ускорение свободного падения. То, о чём Вы пишете, на самом деле Gb и GB, но не gb

у какой карты объем памяти 256\512Гб и какая у неё цена ? Плюс мак стоит на столе а не гроб который орёт.

У квен большая проблема - бесплатный все, кончился. Остались только локальные, и не понятно будут ли новые версии локальные, из-за их смены вектора развития.

У квена осталась бесплатная чат версия. Также для простых задач есть Gemini 3 Flash с большим лимитом через дешевую антигравитацию или Codex с 5.4-mini

Gemini 3 Flash с большим лимитом через дешевую антигравитацию

Our servers are experiencing high traffic right now, please try again in a minute.

Для это есть кот, который держит лапку на "Retry"

Так уже начали выкладывать.

На другом аккаунте статья на эту тему три дня висит на модерации.

Да, спасибо за инфу. Вижу что выкатили в опенсорс 3.6 35b a3b.

Каждый раз с интересом захожу в комментарии к статьям об ИИ, что бы окунуться в чудный мир нейрослопо-зависимых

Хорошо смеется тот, кто смеется последним. Ваши издевки сегодня выглядят как уже как некомпетентность, а не какое-то авторитетное мнение. Ручной кодинг умер. Любой, кто ощутил всю мощь топовых ИИ больше не вернутся в стойло ручного написания кода, который в большинстве случаев - шаблонный. Нет смысла тратить тысячи часов на эту рутину как раньше. Пройдет время это поймут и работодатели, тогда умение в ИИ будет абсолютным требованием. Сейчас всё, что останавливает от этой революции в РФ - санкции и сложность подписок.

Звучит обнадеживающе.

Мне же ИИ (дипсик) даже не смог видеоглазок помочь выбрать, убеждал что все ок и функции которые мне нужны есть в той модели, что он посоветовал, он был очень убедителен. Но когда купил, по факту оказалось, что возможности видеорегистратора нет у глазка. Я был зол и высказал ему в лицо все, что о нем думаю, он переживал и очень извинялся.

Они сейчас маленькие и глупые, но любой инструмент со временем обрастает мощной базой, а нынешние ИИ ещё и совершенствуются с бешеной скоростью. То что мы видим сейчас далеко не серебряная пуля, это правда. Но наша обязанность как специалистов(любой сферы) изучать новые инструменты и учиться ими пользоваться

Ваш же пример скорее неудачная попытка, попробуйте снова и всё получится.

Потому что LLM плохи, когда начинаешь их спрашивать о каких-то узких деталях и тонкостях без обогащения контекста соответствующими данными. В этих случаях они пишут буквально наугад, так как LLM не хранят в себе базу данных видеоглазков со всеми точными характеристиками каждой модели. Но с ответами на общие вопросы они справляются обычно хорошо. Нужно просто хотя бы примерно понимать их внутреннее устройство и ограничения.

БЯМ хорошо помогают "гуглить", искать и вникать в большие кодовые базы и тп. А вот выхлоп от написания кода как был минимальный, так им и остался (еще и стал хуже, спасибо деградациям опуса от антропиков)

Сколько можно повторять, что кодинг как таковой никогда не был чем то сложным или каким то бутылочным горлышком. Ничего по факту не поменялось пока что, просто стало удобней погружаться в большие контексты и быстрей искать - это важно, но это звучит не так красиво как пропаганда вайбкодинга из каждого утюга.

Как минимум те деньги, что уходят на аутпут токены за написание кода точно того не стоят, это пока что слишком дорого для коммерческого использования (в очередной раз напомню что ни о каких подписках за 200$ в месяц для коммерческого использования речи не идёт. Плата за только токены, а это минимум 2-3к$ / mo если что)

А в статьи про GUI IDE не заходите, чтобы VIM порекламировать?

Насчёт "дотаций" это спорный тейк, т.к. инференс при уже имеющейся инфраструктуре стОит по цене электроэнергии, то есть почти ничего не стоит в пересчёте на токен, а вычислительное оборудование промышленных стандартов работает по 20 более лет. Обучение новых моделей и закупка нового "железа" для них - вот что реально сжигает бюджеты.

Именно жёсткая конкуренция требует ввязываться в гонку моделей, тратя огромные деньги. Сам по себе инференс, по нынешним на него ценам, без учёта затрат на обучение и постоянный апгрейд железа - сверхприбыльная штука:)

Обычные покупатели инференса и сверхбогатые инвесторы в инфраструктуру с удовольствием готовы оплачивать весь этот кордебалет, так как все новые модели критично лучше старых, причём у всех производителей моделей.

Думаю, в ближайшие годы будет ситуация примерно как "iPhone  vs Andriod phone", то есть, американская тройка лидеров + китайские нейросети, причём, у Китая будет примерно 80% мирового инференса, но 80% прибыли и инвестиций пойдут американцам.
А потом производители железа, возможно, наконец-то начнут делать нормальные железки для локального запуска моделей среднего уровня (я надеюсь) :)

И это правильный тейк, Deepseek v3.2 уже стоит 0.20usd/1mln.
По поводу локального железа - стаки ~dgx spark(128gb) + usb4.0 помогут запустить очень мощные модели, но пока что медленно. Ryzen ai уже анонсировали всякое разное грядущее, а модели типа qwen27b добавляют оптимизма.

Прибыли на горизонте не видно ни у кого, в классическом понимании прибыли (выручка минус расходы, а не деньги от заемов под повышение цены акций или оценки стартапа).

Почему же тогда на 200$ тарифе существуют какие жесткие то окна с лимитами использования (не смотря на то что суммарно за месяц расход токенов может быть эквивалентен 5к$ по API плану) если это как вы утверждаете почти ничего не стоит?

Почему тогда план за оплату по токенам стоит ТАК дорого? (при этом я считаю что даже он дотирован)

А еще антропик недавно повысил цену до 300$ на подписки для физиков.

Не вижу вообще смысла заморачиваться с покупкой дорогого, быстроустаревающего железа. 200$ за Клод - это порядка 20 000 рублей. Это копейки. За эти деньги получаю личного раба-разработчика и кучу свободного времени для себя.

Кто Клодом пользуется - какие идеи насчет будущей верификации? Поддельные документы стран СНГ сделать на принтере? Найти таджика на стройке? Кто что думает?

А если интернета нет? С недавних пор актуально знаете ли

Вопрос же не только в деньгах. Уровень понимания "как работает" другой становится. Компетенции по настройке появляются.

Это же просто интересно и бонусом закрытие некоторых рисков.

Опять же задачи разные бывают, не только кодинг. Так же не всем из них нужна скорость.

Например задачи классификации - когда нужно пройтись по всем данным всё равно за сколько времени, а потом обрабатывать лишь новые.

Зачем мак я так и не понял. Если он есть, то ок. Но специально покупать это борщ. 3090 вне конкуренции, мало одной, ставь 2,3,4. Нет денег, ставь 3070м 16гб. Ничего выгоднее не найти, около 25тр за шт. Себе в домашний комп засунул к 3090 как раз 3070м, квин 3.6 35b летает. И кстати он вообще не плох. Зачем использовать 4бит квантование, тоже ума не приложу, это только для гиганских моделей. Ниже 6бит это уже ощутимо хуже, особенно на всяких 30б и ниже.

Я тоже не сторонник маков для локальных LLM, но если хочется начать с нуля или просто попробовать и потом решить - мак с большим объемом памяти выглядит почти идеальным решением. Не надо думать - сколько и каких видеокарт надо, а сколько RAM, убирается мучительный перебор комбинаций (в котором даже ИИ не помогает в современном мире), нет проблем с совместимостью - все просто работает (вот позарится, например, человек на Intel ARC B70, с его 32GB VRAM, а потом поймет, что SYCL/Vulkan для него - сырые и либо не работают, либо тормозят). Наигравшись, опять же, можно продать по относительно неплохой цене. И, конечно, скорость все-таки довольно хорошая, даже обгоняя многие дорогие варианты по генерации токенов, за счет многоканальной памяти и отличного NPU. А проседание по prompt processing - ну, не все это ощутят на своих задачах. Плюс, опять же - работает не как киловаттный обогреватель квартиры, свои 140 ватт отрабатывает на все 100.

./build/bin/llama-server -m …/gemma-4-26B-A4B-it-UD-Q4_K_XL.gguf -np 1 -fa 1 --ctx-size $[160000] --jinja -ub $[1024] -b $[1024] --tensor_split 0.0,0.66,0 --main-gpu 1 --verbose --no-mmproj-offload --mmproj …/mmproj-BF16_gemma-4-26B-A4B.gguf

(веб интерфейс, чсх, тот-же) при заполненных ~64000токенов:

3090: Чтение промпта: 2538.94 tokens/s, генерация 90.92 t/s

4090: Чтение промпта: 6382.71 tokens/s, генерация 109.06 t/s

_____

Если использовать квантование кеша -ctk q8_0 -ctv q8_0, чтоб в 24Gb влезли все 256000 токенов контекста (при реально заполненных ~80000):

3090: Чтение промпта: 2779.87 tokens/s, генерация 73.55 t/s

4090: Чтение промпта: 6332.63 tokens/s, генерация 83.80 t/s (да, контекст в Q8 медленнее дефолтного f16 (а b16 медленнее f16 на старых картах и CPU))

(при пустом контексте(как в статье) генерация 126 t/s ), gemma-4-26B-A4B-it-UD-Q4_K_XL.gguf(от https://unsloth.ai/docs/models/gemma-4 ) чуть больше, чуть лучше, и чуть медленнее, чем... а кстати, какая Gemma-4-26B-A4B использовалась? Я думал, что раз всё в q4 - то она тоже, но сейчас заметил, что это нигде не указано.

В общем, IMXO, если модель влазит в 1..2 3090 c авито- это в разы лучше, чем любой мак из представленных https://omlx.ai/compare (чсх, даже это без vpn не открывается...)

Gemma-4-26B-A4B была 4‑битная, а точнее gemma-4-26B-A4B-it-UD-Q4_K_M.gguf.

Очень интересные замеры у вас получились. Если такую сборку собрать и поставить отдельно от рабочего компа (с агентом и IDE), получится хороший сервер для локальных моделей.

Спасибо, исследование интересное. Пара наблюдений дополнительно. Стоит также попробовать Gemma-4-31B-it и Qwen3.6-35B-A3B - они в той-же весовой категории что и представленные, причем обе лучше чем любая из них.

>  Стоит выбирать модели с MoE-архитектурой — они хороши по скорости и приемлемы по качеству.
Зависит от задачи. Gemma-31B ощущается прям сильно более умной чем 26B-A4B. Для простых задач с которыми модель точно справится можно брать и MoE, они действительно сильно быстрее. Но на тех где есть какой-то челеднж для модели, лучше не надо.

Спасибо, про Gemma-4-31B-it я забыл совсем, а Qwen3.6-35B-A3B вышла уже когда статья была готова, поэтому не попала. Про плотные модели — интересное замечание, но мне они показались уж тяжелыми для локального запуска и реального использования.

Я вот для себя такой тест локальных моделей придумал - написать простую игру для андроида (типа на доске 6x6 игрок и компьютер расставляют пушки трех видов, после чего те автоматически друг-друга расстреливают по очереди, с кнопкой для одного шага, редактором расстановки), а потом самостоятельно отладить её в эмуляторе с анализом скриншотов и логов, личное участие допускается только в виде реплик "говоришь, что все сделал, а кнопка STEP не пашет совсем, тестируй нормально давай, а то сядешь в тюрьму! (c)". Результат, надо сказать, грустноватый, из того что на моих 19GB VRAM может работать - что-то похожее на нужный результат дал только qwen3.5-27b, остальные просто целыми днями "отлаживают", типа, без серьезных продвижений. Жду вот когда gemma4 до рабочей кондиции доведут и может еще qwen3.6-27b выйдет.

Спасибо автору за интересное чтиво!

Поддерживаю развитие в сторону локальных моделей, ведь если их не будет или будет недостаточно к ним интереса цены на подписки у облачных llm будут улетать в космос и дальше!

Даёшь бесплатные лопаты в золотую лихорадку!

суперская работа 👍 но только [offtop_mode:on] вы зачем-то отсекли 90% аудитории на гитхабе использованием русского языка, зачем?

Спасибо! В данном случае для меня GitHub — это просто удобное хранилище материалов. Сам по себе репозиторий без статьи действительно мало что даст, поэтому я и делал акцент на статье, а репозиторий — как бонус для тех, кто захочет покопаться в деталях.

А мне эти модели вообще не зашли - качество кода упало :( , сижу на qwen2,5 coder 32b выдает куда качественней код.

Странно, что не упомянули новый экспериментальный формат EXL2, который превосходит GGUF.

🚀 Почему EXL2 часто превосходит GGUF?

У EXL2 есть несколько "козырей", которые делают его настоящим лидером по качеству и скорости на GPU-системах:

  1. Превосходное качество на бит: Это самое сильное место EXL2. В отличие от GGUF, который использует фиксированные схемы сжатия (например, Q4_K_M), EXL2 применяет смешанную точность на уровне слоев . Он анализирует модель во время калибровки и выделяет больше битов для важных слоев, а для менее значимых — меньше . Это приводит к тому, что при одинаковом размере файла EXL2 часто сохраняет больше смысла и точности ответов, чем GGUF .

  2. Молниеносная скорость на GPU: Если ваша модель полностью загружена в VRAM, EXL2 (через бэкенд ExLlamaV2) будет работать значительно быстрее. Пользователи отмечают, что разница в скорости может быть "как день и ночь", особенно на связках из нескольких видеокарт . Это делает его идеальным для задач, где важна минимальная задержка ответа.

  3. Экономия памяти за счет KV Cache: Это killer-фича для работы с большими контекстами. EXL2 поддерживает 4-битное сжатие KV Cache (промежуточных данных для генерации), что позволяет обрабатывать очень длинные диалоги (16k+ токенов) на том же объеме VRAM, где GGUF бы просто "упал" из-за нехватки памяти

💎 Какой же формат выбрать?

Вот простое и практичное руководство к действию:

  • Выбирайте EXL2, если:

    • У вас мощная NVIDIA-видеокарта с объемом VRAM от 8 ГБ и более.

    • Вся модель вместе с нужным контекстом полностью помещается в VRAM.

    • Вам нужно максимальное качество ответов и высокая скорость генерации.

    • Вы готовы использовать ExLlamaV2 или text-generation-webui (Oobabooga).

    • Пример: У вас RTX 3090 (24 ГБ) и вы хотите запустить Llama-3-8B. EXL2 6.0 bpw даст вам лучшее качество и огромную скорость.

  • Выбирайте GGUF, если:

    • У вас скромная видеокарта (6-8 ГБ VRAM) или вы работаете только на процессоре (CPU).

    • Вы хотите запустить большую модель (13B, 34B, 70B), которая не влезает в вашу видеокарту целиком.

    • Для вас критична простота использования и совместимость с популярными приложениями вроде Ollama или LM Studio.

    • Пример: У вас GTX 1060 (6 ГБ), и вы хотите запустить модель 13B. Скачайте GGUF Q4_K_M и запустите её, задействовав оперативную память.


Быстрый поиск через chatgpt говорит, что EXL2 уже помер, EXL3 только есть. И выигрыш реальный неясен, нормальных сравнений не нашло.

А какая версия GPT ? и с режимом поиска, он такое сказал?)

А так вон куча сравнений
https://github.com/turboderp-org/exllamav3/blob/master/doc/exl3.md

https://craftrigs.com/comparisons/gguf-vs-gptq-vs-awq-vs-exl2-quantization-guide/

https://www.reddit.com/r/LocalLLaMA/comments/1cfbadc/result_llama_3_exl2_quant_quality_compared_to/

Так то да всё это экспериментальное, но и GGUF тоже был в экспериментах, а потом захавал сферу влияния.

В первой ссылке какая-то мешанина, mistral, llama 3.1, 7B, 13B, 14B. Неясно к какой конкретной модели относится, а llama-3.1-13b вообще нету. И, опять же, падение качества по сравнению с GGUF. Вторая - там просто сами с собой, а третья - годичной давности. В llama.cpp за этот год чего только уже не накодили...

В данной статье я больше ориентировался на экосистему Mac (MLX) и универсальный GGUF, бегло глянув, нашел, что свежих моделей в EXL2 очень мало.

Отличная статья! С критериями анализа бы я поспорил - их можно зафиттить промтом/скиллом (“write tests, make sure the solution builds, use logging, use strong types” и тд) и формально их выполнить. А как по субъективным ощущениям как кодинг, на уровне моделей 2022-23 года?

Спасибо, с критериями согласен — идеального замера нет. Сейчас локальные модели хороши, но тяжеловаты для повседневной работы на одной машине. Даже если вынести на отдельный хост, до облачных им пока далеко, но приемлемо и данные не передаются.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации