Comments 23
Цена | $20–60/мес + плата за токены | 0 (разовое железо)
Цену (которая у вас "ноль") посчитайте как стоимость всего железа на время плюс стоимость электроэнергии не по льготному тарифу.
И раз вы сделали идеологическое введение - то слово "фашизм" настолько часто употребляется в прессе и средствах массовой информации, что его заездили и вытрепали смысл. Техногиганты строят не фашизм, а нацизм.
Контракты с правительством это в первую очередь ВПК - так всегда и было. Кто то в мемуарах этому сильно удивляется - наверное никогда не увлекались своей же историей. Тесная связь промышленности и правительства - так у них выстроено законодательство, они хотят что так и было.
Нацизм?
В каком месте у техногигантов есть нация на первом месте когда они все ТНК.
Или может там социализм у них завёлся?
Да и Фашист там например Сандерс со своим предложением отнять в пользу государства 50% акций всех крупных корпораций. Ведь это как раз слияние бизнеса с государством. А сами техногиганты хотят чтобы правительства было как можно меньше, а правительственные интересы стояли на последнем месте
они все ТНК ...
техногиганты хотят чтобы
Совершенно не важно кто чего хочет и что думает. У всех техногигантов юрисдикция США и они выполняют законы США.
Есть несколько крупных фирм, которые не находятся напрямую под действием законов США в силу их расположенности в других странах. Только им тоже нужен рынок США, нужны гарантии США по инвестициям, нужна платёжная валюта США и ещё много-много всего разного связанного с США или союзниками США. И они тоже будут выполнять законодательство США.
По поводу нацизма - такова в настоящий момент преобладающая идеология правящей верхушки США. Такие идеи они транслируют на общество, это поддерживает население путём голосования на выборах. Они этого не стесняются, открыто об этом заявляют. Мага - это нацизм в чистом виде.
Есть куча техногигантов из Европы и Китая. Есть ребята и из Южной Кореи с Японией. Есть с Тайваня.
Таки если США будут слишком душить, то уйдут с рынка
В данный момент намного ближе к нацизму демократы, Респы вообще в мегапарсеке от этого
Есть куча техногигантов
Есть один ИИ стартап в Канаде, один в Европе, два - три в Китае и остальные в США.
Все что находятся не в США имеют размеры Моськи по сравнению со слоном США - есть этому причины. Модели не из США отстают на 3 - 6 поколений.
Уходить им некуда. Причины я расписал в комментарии выше.
Нацизм это просто разновидность фашизма. Один из вариантов идеологического оформления
Июль 2026
Облачные ИИ-сервисы резко подорожали
Кайл Риз, ты ли это?
Согласен с автором, локальные модели должны быть у каждого современного пользователя ПК и тем более у кодеров. Уровень ПК-грамотности так низок, что ниже некуда. Например четверть офисных респондентов не может набрать все символы латиницы за 2 минуты теста. Куда им до консоли. Они же - основные ИИ-скептики.
Облачные llm постоянно и незаметно вытягивают из всех нас не только наши прорывные идеи и перс. данные, но и служебную, налоговую, коммерческую (уверен - и гостайну).
Многолетнее отгораживание от мира своими мониторами сыграло с айтишниками злую шутку: они полностью и безоглядно доверяют своим инструментам, забыв что они облачные. И ткнуть их с это некому, кроме как самим это осознать. Приходит время заговорить об этом открыто. Главное не начать запрещать. Зеркала huggingface, github, pypi должны быть созданы давным давно, их социальная реклама должна проесть мозжечок каждому. Но нет этого ничего.
Вот с таким конфигом гоняю локальную qwen3.6 MTP на 3070 8GB + 12900k 64GB. Выдаёт около 40 t/s
llama.cpp/build/bin/llama-server \
--model llama.cpp/models/Qwen3.6-35B-A3B-UD-Q4_K_M.gguf \
--parallel 1 \ - один пользователь за раз
--host 127.0.0.1 --port 8080 \
--offline \ - не лазить в интернет
--no-mmap \
--n-gpu-layers 99 \ - постараться как можно больше засунуть в ГПУ
--cpu-moe \ - все эксперты - на ЦПУ
--threads 8 \ - 8 потоков на ЦПУ
--batch-size 512 --ubatch-size 128 \
--ctx-size $((64*1024)) \ - контекст, сколько влезет
--cache-ram 16000 \ - на всякий случай
--flash-attn on \ - куда ж без flash attention
--cache-type-k q8_0 --cache-type-v q8_0 \ - квантование KV кеша
--no-kv-unified \ - не объединять кеш
--temperature 0.0 \ - отключаем "креативность"
--top-k 1 \ - жадно берём один токен
--repeat-last-n 0 \ - не штрафуем за повторы
--reasoning off \ - тут по вкусу
--spec-type draft-mtp \ - минисетка для предсказания токенов
--spec-draft-n-min 0 \ - разрешаем ничего не брать
--spec-draft-n-max 16 \ - ограничиваем цикл опроса минисетки
--spec-draft-p-min 0.75 \ - уверенность, ниже которой больше не опрашиваем
--spec-draft-type-k q8_0 --spec-draft-type-v q8_0 - квантуем уже кеш минисеткиМожет быть немного мимо темы, но в условиях ограниченного vram бюджета, также обратите внимание на возможность организовать видеовывод на iGPU, а инференс и прочий gpu-heavy workload подавать через offload на дискретку. Это может быть неактуально для систем без gui вроде серверных, но в ином случае это может помочь, лично меня жаба душила когда иксы и браузеры отжирали 2-3 Гб на свои нужды даже при чуть большем объёме видеопамяти.
Я пробовал. К сожалению драйвера nvidia переводят карту в On-Demand состояние, и инференс падает до 10t/s. А если насильно выставить режим Performance - GUI переезжает обратно) Так и не смог добиться, чтобы видеокарта работала на полную силу, если через неё не выводится изображение. Но система не то чтобы много объедает ~600Мб VRAM
И как оно? Просто большинство локальных моделей для простых задач, они все же сильно тупее облачных. Основной аргумент "данные обрабатываются локально", но вот про качество обычно как-то скромнее умалчивают
–no-kv-unified \ - не объединять кеш
Прокомментируете, зачем так?
Также соглашусь с автором.
И ведь помимо национальных интересов определенных групп, как кажется или так и является текущая ценовая доступность облачных "frontier" моделей обусловлена субсидиями с целью сбора данных, но рано или поздно этот праздник жизни должен закончиться. И тем паче наблюдать за коллегами, что выстраивают свои "платформы" на обвязке готовых продуктов вроде Claude code / codex и т.п.
Агентную "платформу" вроде Claude code ещё можно заменить в области оркестрации, т.к. имеются открытые аналоги. Но лично для себя строю систему тулинга с которой и взаимодействуют агенты. Ведь тот же Claude предоставляет не только пакетный доступ к LLM, но и много инструментов вроде поиска в сети, проверки найденных данных, ведь можно затянуть к себе "вредоносные" тексты в том числе и с инъекциями. Например, так получилось полностью затянуть в закрытый периметр этого инструмента все закрытые библиотеки с документацией, обвесить их автоматически анализаторами и всякими tree-sitter для навигации через mcp.
Но, уж извините, хоть и растекся мыслью, как мне кажется важно иметь аналог для всего стека, которым пользуетесь учитывая такие настроения у техногигантов да и как-то доносить это до "бизнеса".
Также посмотрите в сторону моделей с динамической квантизацией. Например, unsloth. Может помочь выжать чуть больше качества из узких рамок.
То, что нас используют для улучшения ИИ даже не подлежит сомнению. Они обкатывают его на практических задачах и параллельно собирают данные об используемых решениях и кто чем занимается.
Но есть и обратная сторона этой медали. Изоляция ИИ от публичного доступа - это его развитие в закрытой экосистеме, которая будет постепенно терять связь с действительностью. Галапагосские острова - классический пример закрытой островной экосистемы, где эволюция потеряла связь с остальным миром.
В целом - согласен, монополию ИИ надо разрушать ещё в зародыше, причём не только на уровне гос.регулирования, но и на уровне “локального цифрового сопротивления” - перестать бесплатно поставлять им данные. Особо упоротым вендорам ИИ - поставлять искаженные данные. Правда, тогда мы не сможем доверять их ИИ, но мы и так не можем доверять прориетарному ИИ, закрытому от публичного тестирования (кто знает, каких закладок он нам навставляет).
Нас много, мы можем голосовать не словом, а делом.
Qwen 3.6 27B 5bit это не отличное, а едва терпимое. Всё остальное просто убогое. Увы, полновесным моделям они не конкуренты вообще никак
Да, 27B это несерьёзно для реального локального применения, слишком слабый результат в реальных задачах.
Для себя локально использую Q8 80B-120B сети на RTX A6000 c частичной выгрузкой кеша в RAM и сеть-контроллер на RTX A5000. При правильной настройке и использовании MCP показывают результаты сравнимые с Sonnet 4.5-4.6, что уже имеет смысл использовать на постоянной основе, тем более что локальные сети отлично работают с тем же Claude Code.
а что будет, когда это закончится?
К чему эти дешевые манипуляции?
Вы знаете что такое миллиард? Это 83 года вы можете тратить по 1 миллиону в месяц. Это без капитализации.
Так Вот инвестиции в LLM сейчас составляют сотни миллиардов. Думаете это ради того, чтобы вам было удобно?
Цель уже озвучена неоднократно: это будет инструмент, без котрого вы не сможете дальше работать с привычной эффективностью и будуте отдавать за него четверть своего дохода.
Привыкайте к мысли. Увы.
Кремниевая долина должна «вернуть моральный долг» государству и принять участие в защите нации. Инженерная элита, по его словам, обязана не только участвовать в обороне, но и «формулировать национальную идею
Если этот долг и обязательства не оформлены на бумаге, то и говорить не о чем. Частные компании не будут бесплатно заниматься неприбыльными для себя активностями, а обязать их этим заниматься эффективно не получится (ТНК очень уже хорошо наловчились избегать государственного давления, ирландская корпорация Google не даст соврать).
А по теме статьи: конечно эффективнее всего использовать LLM на блокчейне. У той же Gonka уже вполне себе приемлемый инференс для максимального QWEN, а цены там задрать не выйдет, так как рынок блокчейн-провайдеров сверхконкурентный. Ещё помимо Gonka есть Bittensor и Cocoon от Дурова, но их ещё лично не пробовал и не могу сказать работает ли на сколько хорошо. Кто-то здесь пробовал что-то, кроме Gonka?
От Кремниевой долины к техно-фашизму: почему облачные LLM — это ловушка, и как я собрал свой локальный ИИ на коленке