GenomeDust Jun 20 at 09:11

От Кремниевой долины к техно-фашизму: почему облачные LLM — это ловушка, и как я собрал свой локальный ИИ на коленке

Easy

9 min

11K

Development for Linux * Solidity * Visual Studio *

Tutorial

Comments 28

alexhu Jun 20 at 10:06

Цена | $20–60/мес + плата за токены | 0 (разовое железо)

Цену (которая у вас "ноль") посчитайте как стоимость всего железа на время плюс стоимость электроэнергии не по льготному тарифу.

И раз вы сделали идеологическое введение - то слово "фашизм" настолько часто употребляется в прессе и средствах массовой информации, что его заездили и вытрепали смысл. Техногиганты строят не фашизм, а нацизм.

Контракты с правительством это в первую очередь ВПК - так всегда и было. Кто то в мемуарах этому сильно удивляется - наверное никогда не увлекались своей же историей. Тесная связь промышленности и правительства - так у них выстроено законодательство, они хотят что так и было.

BlackMokona Jun 20 at 12:26

Нацизм?

В каком месте у техногигантов есть нация на первом месте когда они все ТНК.

Или может там социализм у них завёлся?

Да и Фашист там например Сандерс со своим предложением отнять в пользу государства 50% акций всех крупных корпораций. Ведь это как раз слияние бизнеса с государством. А сами техногиганты хотят чтобы правительства было как можно меньше, а правительственные интересы стояли на последнем месте

alexhu Jun 20 at 13:12

они все ТНК ...

техногиганты хотят чтобы

Совершенно не важно кто чего хочет и что думает. У всех техногигантов юрисдикция США и они выполняют законы США.

Есть несколько крупных фирм, которые не находятся напрямую под действием законов США в силу их расположенности в других странах. Только им тоже нужен рынок США, нужны гарантии США по инвестициям, нужна платёжная валюта США и ещё много-много всего разного связанного с США или союзниками США. И они тоже будут выполнять законодательство США.

По поводу нацизма - такова в настоящий момент преобладающая идеология правящей верхушки США. Такие идеи они транслируют на общество, это поддерживает население путём голосования на выборах. Они этого не стесняются, открыто об этом заявляют. Мага - это нацизм в чистом виде.

BlackMokona Jun 20 at 18:18

Есть куча техногигантов из Европы и Китая. Есть ребята и из Южной Кореи с Японией. Есть с Тайваня.

Таки если США будут слишком душить, то уйдут с рынка

В данный момент намного ближе к нацизму демократы, Респы вообще в мегапарсеке от этого

alexhu Jun 21 at 10:42

Есть куча техногигантов

Есть один ИИ стартап в Канаде, один в Европе, два - три в Китае и остальные в США.

Все что находятся не в США имеют размеры Моськи по сравнению со слоном США - есть этому причины. Модели не из США отстают на 3 - 6 поколений.

Уходить им некуда. Причины я расписал в комментарии выше.

ivandenisoff Jun 21 at 13:06

Огласите весь список пожалуйста

BlackMokona Jun 21 at 17:08

Уходить куда угодно могут, благо интеллектуальная собственность легко вывозится вместе с персоналом. А дата центы дело наживное. Просто сейчас США наиболее благоприятная зона. В ЕС душат бюрократы дико, а в Китае партия

akkermanrulitt Jun 21 at 07:47

Нацизм это просто разновидность фашизма. Один из вариантов идеологического оформления

Barnaby Jun 20 at 11:13

Июль 2026
Облачные ИИ-сервисы резко подорожали

Кайл Риз, ты ли это?

economist75 Jun 20 at 12:02

Согласен с автором, локальные модели должны быть у каждого современного пользователя ПК и тем более у кодеров. Уровень ПК-грамотности так низок, что ниже некуда. Например четверть офисных респондентов не может набрать все символы латиницы за 2 минуты теста. Куда им до консоли. Они же - основные ИИ-скептики.

Облачные llm постоянно и незаметно вытягивают из всех нас не только наши прорывные идеи и перс. данные, но и служебную, налоговую, коммерческую (уверен - и гостайну).

Многолетнее отгораживание от мира своими мониторами сыграло с айтишниками злую шутку: они полностью и безоглядно доверяют своим инструментам, забыв что они облачные. И ткнуть их с это некому, кроме как самим это осознать. Приходит время заговорить об этом открыто. Главное не начать запрещать. Зеркала huggingface, github, pypi должны быть созданы давным давно, их социальная реклама должна проесть мозжечок каждому. Но нет этого ничего.

Anton_Timofeev Jun 20 at 13:53

Вот с таким конфигом гоняю локальную qwen3.6 MTP на 3070 8GB + 12900k 64GB. Выдаёт около 40 t/s

llama.cpp/build/bin/llama-server \
	--model llama.cpp/models/Qwen3.6-35B-A3B-UD-Q4_K_M.gguf \
	--parallel 1 \ - один пользователь за раз
	--host 127.0.0.1 --port 8080 \
	--offline \ - не лазить в интернет
	--no-mmap \
	--n-gpu-layers 99 \ - постараться как можно больше засунуть в ГПУ
	--cpu-moe \ - все эксперты - на ЦПУ
    --threads 8 \ - 8 потоков на ЦПУ
    --batch-size 512 --ubatch-size 128 \
	--ctx-size $((64*1024)) \ - контекст, сколько влезет
	--cache-ram 16000 \ - на всякий случай
	--flash-attn on \ - куда ж без flash attention
    --cache-type-k q8_0 --cache-type-v q8_0 \ - квантование KV кеша
    --no-kv-unified \ - не объединять кеш
	--temperature 0.0 \ - отключаем "креативность"
	--top-k 1 \ - жадно берём один токен
	--repeat-last-n 0 \ - не штрафуем за повторы
	--reasoning off \ - тут по вкусу
	--spec-type draft-mtp \ - минисетка для предсказания токенов
	--spec-draft-n-min 0 \ - разрешаем ничего не брать
	--spec-draft-n-max 16 \ - ограничиваем цикл опроса минисетки
	--spec-draft-p-min 0.75 \ - уверенность, ниже которой больше не опрашиваем
	--spec-draft-type-k q8_0 --spec-draft-type-v q8_0 - квантуем уже кеш минисетки

vasyan_podpivkovich Jun 20 at 18:27

Может быть немного мимо темы, но в условиях ограниченного vram бюджета, также обратите внимание на возможность организовать видеовывод на iGPU, а инференс и прочий gpu-heavy workload подавать через offload на дискретку. Это может быть неактуально для систем без gui вроде серверных, но в ином случае это может помочь, лично меня жаба душила когда иксы и браузеры отжирали 2-3 Гб на свои нужды даже при чуть большем объёме видеопамяти.

Anton_Timofeev Jun 20 at 18:42

Я пробовал. К сожалению драйвера nvidia переводят карту в On-Demand состояние, и инференс падает до 10t/s. А если насильно выставить режим Performance - GUI переезжает обратно) Так и не смог добиться, чтобы видеокарта работала на полную силу, если через неё не выводится изображение. Но система не то чтобы много объедает ~600Мб VRAM

mlp2 Jul 13 at 11:59

Ваша карта стоит ~ 30 т.р. на Авито, RTX 5060 Ti 16 GB - 40 т.р. на Авито и 50 т.р. в магазине. Вы не рассматривали апгрейд ? или у RTX 5060 Ti 16 GB - тоже есть проблемы ?

"А если насильно выставить режим Performance - GUI переезжает обратно) Так и не смог добиться, чтобы видеокарта работала на полную силу, если через неё не выводится изображение." - я правильно понял то Nvidia искусственно ограничивает использование карты для инференса ?

Anton_Timofeev Jul 13 at 21:52

Мои долгие размышления на тему объёма VRAM остановились на том, что модель целиком должна влезать, а для этого минимум 24Гб нужно (жаба холодными лапками прикасается к моей шее).

Возможно я не дожал, но факт, что с полпинка не завелось.

Anselm_nn Jun 20 at 22:22

И как оно? Просто большинство локальных моделей для простых задач, они все же сильно тупее облачных. Основной аргумент "данные обрабатываются локально", но вот про качество обычно как-то скромнее умалчивают

Anton_Timofeev Jun 21 at 08:36

Звёзд с неба не хватает, но может выполнять задачи уровня "посмотри, как сделано А, и сделай по образу и подобию Б,В и Г"

slonopotamus Jun 21 at 09:34

–no-kv-unified \ - не объединять кеш

Прокомментируете, зачем так?

Anton_Timofeev Jun 22 at 22:26

Я это сделал потому что у меня часть слоёв на ГПУ, а часть на ЦПУ. Вроде как это позволяет кеш слоёв держать рядом с компьютом. (Не факт, что я понял правильно, как оно работает)

vasyan_podpivkovich Jun 20 at 18:14

Также соглашусь с автором.

И ведь помимо национальных интересов определенных групп, как кажется или так и является текущая ценовая доступность облачных "frontier" моделей обусловлена субсидиями с целью сбора данных, но рано или поздно этот праздник жизни должен закончиться. И тем паче наблюдать за коллегами, что выстраивают свои "платформы" на обвязке готовых продуктов вроде Claude code / codex и т.п.

Агентную "платформу" вроде Claude code ещё можно заменить в области оркестрации, т.к. имеются открытые аналоги. Но лично для себя строю систему тулинга с которой и взаимодействуют агенты. Ведь тот же Claude предоставляет не только пакетный доступ к LLM, но и много инструментов вроде поиска в сети, проверки найденных данных, ведь можно затянуть к себе "вредоносные" тексты в том числе и с инъекциями. Например, так получилось полностью затянуть в закрытый периметр этого инструмента все закрытые библиотеки с документацией, обвесить их автоматически анализаторами и всякими tree-sitter для навигации через mcp.

Но, уж извините, хоть и растекся мыслью, как мне кажется важно иметь аналог для всего стека, которым пользуетесь учитывая такие настроения у техногигантов да и как-то доносить это до "бизнеса".

vasyan_podpivkovich Jun 20 at 18:52

Также посмотрите в сторону моделей с динамической квантизацией. Например, unsloth. Может помочь выжать чуть больше качества из узких рамок.

egranty Jun 20 at 19:06

То, что нас используют для улучшения ИИ даже не подлежит сомнению. Они обкатывают его на практических задачах и параллельно собирают данные об используемых решениях и кто чем занимается.

Но есть и обратная сторона этой медали. Изоляция ИИ от публичного доступа - это его развитие в закрытой экосистеме, которая будет постепенно терять связь с действительностью. Галапагосские острова - классический пример закрытой островной экосистемы, где эволюция потеряла связь с остальным миром.

В целом - согласен, монополию ИИ надо разрушать ещё в зародыше, причём не только на уровне гос.регулирования, но и на уровне “локального цифрового сопротивления” - перестать бесплатно поставлять им данные. Особо упоротым вендорам ИИ - поставлять искаженные данные. Правда, тогда мы не сможем доверять их ИИ, но мы и так не можем доверять прориетарному ИИ, закрытому от публичного тестирования (кто знает, каких закладок он нам навставляет).
Нас много, мы можем голосовать не словом, а делом.

jojozuka Jun 20 at 21:15

Qwen 3.6 27B 5bit это не отличное, а едва терпимое. Всё остальное просто убогое. Увы, полновесным моделям они не конкуренты вообще никак

ToxaBes Jun 21 at 10:31

Да, 27B это несерьёзно для реального локального применения, слишком слабый результат в реальных задачах.

Для себя локально использую Q8 80B-120B сети на RTX A6000 c частичной выгрузкой кеша в RAM и сеть-контроллер на RTX A5000. При правильной настройке и использовании MCP показывают результаты сравнимые с Sonnet 4.5-4.6, что уже имеет смысл использовать на постоянной основе, тем более что локальные сети отлично работают с тем же Claude Code.

select26 Jun 21 at 10:13

а что будет, когда это закончится?

К чему эти дешевые манипуляции?

Вы знаете что такое миллиард? Это 83 года вы можете тратить по 1 миллиону в месяц. Это без капитализации.

Так Вот инвестиции в LLM сейчас составляют сотни миллиардов. Думаете это ради того, чтобы вам было удобно?

Цель уже озвучена неоднократно: это будет инструмент, без котрого вы не сможете дальше работать с привычной эффективностью и будуте отдавать за него четверть своего дохода.

Привыкайте к мысли. Увы.

0xInnominatus Jun 21 at 14:50

Кремниевая долина должна «вернуть моральный долг» государству и принять участие в защите нации. Инженерная элита, по его словам, обязана не только участвовать в обороне, но и «формулировать национальную идею

Если этот долг и обязательства не оформлены на бумаге, то и говорить не о чем. Частные компании не будут бесплатно заниматься неприбыльными для себя активностями, а обязать их этим заниматься эффективно не получится (ТНК очень уже хорошо наловчились избегать государственного давления, ирландская корпорация Google не даст соврать).

А по теме статьи: конечно эффективнее всего использовать LLM на блокчейне. У той же Gonka уже вполне себе приемлемый инференс для максимального QWEN, а цены там задрать не выйдет, так как рынок блокчейн-провайдеров сверхконкурентный. Ещё помимо Gonka есть Bittensor и Cocoon от Дурова, но их ещё лично не пробовал и не могу сказать работает ли на сколько хорошо. Кто-то здесь пробовал что-то, кроме Gonka?

10vivo01 Jun 22 at 08:13

Я согласен. Почти все крупные компании пока не окупают затраты на содержание дата центров, (тратят больше чем зарабатывают), поэтому либо банкрот либо высокие цены, а пока идет подсадка на "наркоту" на дешевые тарифы, чтобы потом труднее было отказаться. Да и Китай активно демпингует сжигая их усилия и колоссальные вложенные инвестиции своими моделями и ценами. И это лишь усугубляет надвигающиеся проблемы в будущем. Купи еще одну 4060, у меня тоже 32 озу и две 1070, на этой модели qwen3.6-35b-a3b на тестировании генерации текстов дает 7-9 токенов. Важно не отдавай на откуп распределение памяти программе, веса которые не помещаются в GPU должны быть отданы процессору а не выгружены в ОЗУ.

ff_m Jun 22 at 08:14

Спасибо за статью, тема близкая. Добавлю свои замеры — они скорее подтверждают ваш тезис о жизнеспособности локального инференса, просто на другом железе.

Конфигурация:

Apple M5 Max, 128 ГБ unified memory, 40-ядерный GPU
LM Studio, формат MLX, локальный сервер
Модель: Qwen3-Coder-Next — 80B MoE, 3B активных параметров, 4bit (44.86 ГБ), контекст до 256k, KV-cache 8bit
temperature 0, фиксированный seed

Скорость генерации:

Тест Вход Выход Время Генерация ───────────────────────────────────────────────── Короткая 29 ток 187 ток 2.3 с ~83 ток/с

Средняя 32 ток 511 ток 5.8 с ~89 ток/с

Длинная 57 ток 1023 ток 12.5 с ~82 ток/с

80B-модель устойчиво держит ~82–89 ток/с генерации. Отдельно замерил обработку входа (prefill) на большом промпте: 20 695 токенов на входе обработались за ~10 с, т.е. порядка ~2000 ток/с — но это другая метрика, не генерация: вход обрабатывается параллельно и потому в разы быстрее, чем последовательная выдача токенов на выходе.

Ключевую роль играет связка «много unified memory + MoE»: 128 ГБ хватает на саму модель, а малое число активных параметров (3B) держит скорость высокой.

По скорости и удобству для повседневных задач — полностью согласен: локально это уже рабочий инструмент, а не эксперимент.

Единственное, что добавлю нейтрально, без полемики: по сырой скорости локальные модели на адекватном железе уже сопоставимы с облаком, но по качеству разрыв с топовыми моделями пока сохраняется — глубина рассуждений, работа с инструментами, восстановление после ошибок в длинной цепочке, удержание длинного контекста «по смыслу», а не просто по объёму окна. Поэтому у меня сложилось разделение ролей: локальная модель — для массовых и черновых задач (поиск, классификация, генерация тестов, наброски), топовая облачная — для критичных решений, где цена ошибки выше. Как ускоритель локалка уже отличная; как полная замена для самых ответственных шагов — пока нет.