Обновить

От Кремниевой долины к техно-фашизму: почему облачные LLM — это ловушка, и как я собрал свой локальный ИИ на коленке

Уровень сложностиПростой
Время на прочтение9 мин
Охват и читатели6.5K
Всего голосов 17: ↑10 и ↓7+5
Комментарии12

Комментарии 12

Цена | $20–60/мес + плата за токены | 0 (разовое железо)

Цену (которая у вас "ноль") посчитайте как стоимость всего железа на время плюс стоимость электроэнергии не по льготному тарифу.

И раз вы сделали идеологическое введение - то слово "фашизм" настолько часто употребляется в прессе и средствах массовой информации, что его заездили и вытрепали смысл. Техногиганты строят не фашизм, а нацизм.

Контракты с правительством это в первую очередь ВПК - так всегда и было. Кто то в мемуарах этому сильно удивляется - наверное никогда не увлекались своей же историей. Тесная связь промышленности и правительства - так у них выстроено законодательство, они хотят что так и было.

Нацизм?

В каком месте у техногигантов есть нация на первом месте когда они все ТНК.

Или может там социализм у них завёлся?

Да и Фашист там например Сандерс со своим предложением отнять в пользу государства 50% акций всех крупных корпораций. Ведь это как раз слияние бизнеса с государством. А сами техногиганты хотят чтобы правительства было как можно меньше, а правительственные интересы стояли на последнем месте

они все ТНК ...

техногиганты хотят чтобы

Совершенно не важно кто чего хочет и что думает. У всех техногигантов юрисдикция США и они выполняют законы США.

Есть несколько крупных фирм, которые не находятся напрямую под действием законов США в силу их расположенности в других странах. Только им тоже нужен рынок США, нужны гарантии США по инвестициям, нужна платёжная валюта США и ещё много-много всего разного связанного с США или союзниками США. И они тоже будут выполнять законодательство США.

По поводу нацизма - такова в настоящий момент преобладающая идеология правящей верхушки США. Такие идеи они транслируют на общество, это поддерживает население путём голосования на выборах. Они этого не стесняются, открыто об этом заявляют. Мага - это нацизм в чистом виде.

Есть куча техногигантов из Европы и Китая. Есть ребята и из Южной Кореи с Японией. Есть с Тайваня.

Таки если США будут слишком душить, то уйдут с рынка

В данный момент намного ближе к нацизму демократы, Респы вообще в мегапарсеке от этого

Июль 2026

Облачные ИИ-сервисы резко подорожали

Кайл Риз, ты ли это?

Согласен с автором, локальные модели должны быть у каждого современного пользователя ПК и тем более у кодеров. Уровень ПК-грамотности так низок, что ниже некуда. Например четверть офисных респондентов не может набрать все символы латиницы за 2 минуты теста. Куда им до консоли. Они же - основные ИИ-скептики.

Облачные llm постоянно и незаметно вытягивают из всех нас не только наши прорывные идеи и перс. данные, но и служебную, налоговую, коммерческую (уверен - и гостайну).

Многолетнее отгораживание от мира своими мониторами сыграло с айтишниками злую шутку: они полностью и безоглядно доверяют своим инструментам, забыв что они облачные. И ткнуть их с это некому, кроме как самим это осознать. Приходит время заговорить об этом открыто. Главное не начать запрещать. Зеркала huggingface, github, pypi должны быть созданы давным давно, их социальная реклама должна проесть мозжечок каждому. Но нет этого ничего.

Вот с таким конфигом гоняю локальную qwen3.6 MTP на 3070 8GB + 12900k 64GB. Выдаёт около 40 t/s
llama.cpp/build/bin/llama-server \
	--model llama.cpp/models/Qwen3.6-35B-A3B-UD-Q4_K_M.gguf \
	--parallel 1 \ - один пользователь за раз
	--host 127.0.0.1 --port 8080 \
	--offline \ - не лазить в интернет
	--no-mmap \
	--n-gpu-layers 99 \ - постараться как можно больше засунуть в ГПУ
	--cpu-moe \ - все эксперты - на ЦПУ
    --threads 8 \ - 8 потоков на ЦПУ
    --batch-size 512 --ubatch-size 128 \
	--ctx-size $((64*1024)) \ - контекст, сколько влезет
	--cache-ram 16000 \ - на всякий случай
	--flash-attn on \ - куда ж без flash attention
    --cache-type-k q8_0 --cache-type-v q8_0 \ - квантование KV кеша
    --no-kv-unified \ - не объединять кеш
	--temperature 0.0 \ - отключаем "креативность"
	--top-k 1 \ - жадно берём один токен
	--repeat-last-n 0 \ - не штрафуем за повторы
	--reasoning off \ - тут по вкусу
	--spec-type draft-mtp \ - минисетка для предсказания токенов
	--spec-draft-n-min 0 \ - разрешаем ничего не брать
	--spec-draft-n-max 16 \ - ограничиваем цикл опроса минисетки
	--spec-draft-p-min 0.75 \ - уверенность, ниже которой больше не опрашиваем
	--spec-draft-type-k q8_0 --spec-draft-type-v q8_0 - квантуем уже кеш минисетки

Может быть немного мимо темы, но в условиях ограниченного vram бюджета, также обратите внимание на возможность организовать видеовывод на iGPU, а инференс и прочий gpu-heavy workload подавать через offload на дискретку. Это может быть неактуально для систем без gui вроде серверных, но в ином случае это может помочь, лично меня жаба душила когда иксы и браузеры отжирали 2-3 Гб на свои нужды даже при чуть большем объёме видеопамяти.

Я пробовал. К сожалению драйвера nvidia переводят карту в On-Demand состояние, и инференс падает до 10t/s. А если насильно выставить режим Performance - GUI переезжает обратно) Так и не смог добиться, чтобы видеокарта работала на полную силу, если через неё не выводится изображение. Но система не то чтобы много объедает ~600Мб VRAM

Также соглашусь с автором.

И ведь помимо национальных интересов определенных групп, как кажется или так и является текущая ценовая доступность облачных "frontier" моделей обусловлена субсидиями с целью сбора данных, но рано или поздно этот праздник жизни должен закончиться. И тем паче наблюдать за коллегами, что выстраивают свои "платформы" на обвязке готовых продуктов вроде Claude code / codex и т.п.

Агентную "платформу" вроде Claude code ещё можно заменить в области оркестрации, т.к. имеются открытые аналоги. Но лично для себя строю систему тулинга с которой и взаимодействуют агенты. Ведь тот же Claude предоставляет не только пакетный доступ к LLM, но и много инструментов вроде поиска в сети, проверки найденных данных, ведь можно затянуть к себе "вредоносные" тексты в том числе и с инъекциями. Например, так получилось полностью затянуть в закрытый периметр этого инструмента все закрытые библиотеки с документацией, обвесить их автоматически анализаторами и всякими tree-sitter для навигации через mcp.

Но, уж извините, хоть и растекся мыслью, как мне кажется важно иметь аналог для всего стека, которым пользуетесь учитывая такие настроения у техногигантов да и как-то доносить это до "бизнеса".

Также посмотрите в сторону моделей с динамической квантизацией. Например, unsloth. Может помочь выжать чуть больше качества из узких рамок.

То, что нас используют для улучшения ИИ даже не подлежит сомнению. Они обкатывают его на практических задачах и параллельно собирают данные об используемых решениях и кто чем занимается.

Но есть и обратная сторона этой медали. Изоляция ИИ от публичного доступа - это его развитие в закрытой экосистеме, которая будет постепенно терять связь с действительностью. Галапагосские острова - классический пример закрытой островной экосистемы, где эволюция потеряла связь с остальным миром.

В целом - согласен, монополию ИИ надо разрушать ещё в зародыше, причём не только на уровне гос.регулирования, но и на уровне “локального цифрового сопротивления” - перестать бесплатно поставлять им данные. Особо упоротым вендорам ИИ - поставлять искаженные данные. Правда, тогда мы не сможем доверять их ИИ, но мы и так не можем доверять прориетарному ИИ, закрытому от публичного тестирования (кто знает, каких закладок он нам навставляет).
Нас много, мы можем голосовать не словом, а делом.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации