В последнее время из общего ИИ-пузыря выделилось несколько хайповых тем:

  • автономные ИИ-агенты и другие инструменты, которые якобы помогают человеку выполнять рутинные задачи и экономить время (это обман, на самом деле всё наоборот: загруженность человека с ИИ сильно возрастает — увеличивается интенсивность труда, усталость, риски выгорания и требования к производительности),

  • частные облака для «локального» инференса,

  • децентрализованный ИИ, который будет работать на компьютерах пользователей.

С агентами всё понятно, а вот частные облака и P2P-суперинтеллект можно рассмотреть внимательнее.


Локальный ИИ против коммерческого

С самого начала коммерческой эксплуатации облачных ИИ-сервисов энтузиасты предпринимают попытки запустить эти модели локально, на своих серверах и ПК. К сожалению, самые последние передовые модели локализовать не получается, но остальные нормально работают. Все знают сайт Hugging Face, откуда можно скачать файлы обученных моделей, и графическую оболочку Ollama для их запуска. Оболочка работает на опенсорсной библиотеке llama.cpp от Георгия Герганова.

Её можно использовать и без GUI, просто в консоли:

# Использовать файл локальной модели
llama-cli -m my_model.gguf

# Или скачать и запустить модель напрямую с Hugging Face
llama-cli -hf ggml-org/gemma-3-1b-it-GGUF

# Запустить OpenAI-совместимый сервер API
llama-server -hf ggml-org/gemma-3-1b-it-GGUF

Разработчики llama.cpp считают, что сейчас локальный инференс «становится значимой и конкурентоспособной альтернативой облачному». Они говорят, что для будущей сверхмощной системы ИИ важно, чтобы она работала по распределённой модели на железе пользователей, а не в дата-центре коммерческой корпорации.

По их мнению, будущий Сверхинтеллект должен работать в P2P-сети и принадлежать всему человечеству.

Разумеется, корпорации с этим не согласны.

Частные облака: обещание приватности

«Частные облака» от корпораций позиционируются как «приватная» альтернатива облачным ИИ-сервисам. То есть это якобы безопасный аналог локального ИИ, совершенно секретный, конфиденциальный и т. д. Альтернатива собственному серверу для клиентов, которые боятся работать с облачными сервисами из-за угрозы утечек данных.

В ноябре 2025 года Google запустила «частное облако» Private AI Compute с моделями семейства Gemini.

Системная архитектура Private AI Compute, источник
Системная архитектура Private AI Compute, источник

Облако Private AI Compute работает на едином технологическом стеке Google, включая собственные тензорные TPU-процессоры Trillium и аппаратную технологию шифрования Trusted Execution Environment (TEE) на CPU и TPU.

Коммуникации с фронтендом идут по зашифрованным каналам Noise и ALTS (Application Layer Transport Security), чтобы изолировать частное облако от остальной инфраструктуры Google. Клиент устанавливает соединение с фронтенд-сервером по криптопротоколу Noise. Впоследствии фронтенд-сервер устанавливает канал шифрования ALTS с другими службами и с серверами моделей, работающими на защищённой платформе TPU. Каждая рабочая нагрузка запрашивает и криптографически проверяет учётные данные другой стороны.

Теоретически, всё зашифровано и защищено. Главная цель этих наукоподобных «заклинаний» — убедить клиента отказаться от локального сервера в пользу частного облака.

Упрощённая диаграмма цепочки доверия Private AI Compute, источник
Упрощённая диаграмма цепочки доверия Private AI Compute, источник

Заявлено, что облако «обеспечивает высокий уровень приватности, сопоставимый с локальной обработкой данных». Новая система «построена на изолированном защищённом окружении, где все вычисления происходят в зашифрованном пространстве, доступ к которому имеет только пользователь». Даже сотрудники Google якобы не могут получить доступ к этим данным.

Первыми на платформе запустили ИИ-функции смартфонов Pixel 10: улучшатель промптов Magic Cue и функцию обобщения транскрипций в приложении Recorder. Эти задачи помогут протестировать сервис, который предлагается в аренду корпоративным клиентам. Кстати, на новом смартфоне Pixel 10 целая куча ИИ-функций, включая генератор картинок и прочий нейрослоп:

Платформа Private AI Compute «открывает новые возможности для интеграции Gemini в разл��чные продукты Google».

Все понимают, что приватность и Google — вещи не совместимые. Если на телефоне Android вы набрали какое-то слово в блокноте (заметках), телеграме или где-то ещё — скоро увидите контекстную рекламу и видеоролики на YouTube на эту тему. Судя по всему, информация сливается через клавиатуру Gboard и другие каналы.

В 2024-2025 гг свои «приватные облака» запустили и другие корпорации: Private Cloud Compute от Apple и Private Processing от Meta (экстремистская организация, запрещённая в РФ). У них схожие цели по переносу нагрузок ИИ в облако, с внедрением криптографических и аппаратных средств защиты. Этот процесс отражает общую тенденцию в отрасли — запуск систем ИИ, которые якобы ориентируются на конфиденциальность.

Но всё это маркетинговая чушь. Даже сейчас в открытом доступе есть несколько научных статей с подробным описанием атак на TEE. Плюс очевидный риск, что производитель TEE владеет ключами и всегда может поделиться этим доступом с третьими лицами.

Тем не менее, «приватное облако» остаётся привлекательным для многих заказчиков. На гитхабе есть открытый фреймворк OpenPCC для тех, кто хочет поэкспериментировать с архитектурой приватного ИИ.

Работа с LLM-провайдерами в частном облаке OpenPCC
Работа с LLM-провайдерами в частном облаке OpenPCC

Компоненты OpenPCC:

При использовании сторонних коммерческих серверов о приватности речи не идёт. Все «частные облака» — просто попытка корпораций оторвать клиентов от локальных серверов. Задача — убедить, что здесь всё безопасно и приватно, как на своём сервере, при этом удобнее.

Но единственное безопасное «облако» — это свой собственный сервер.

Распределённый Интеллект

Есть маленькая надежда, что будущий Сверхинтеллект не окажется под контролем корпораций, а будет развёрнут в нормальном открытом виде на распределённой сети частных компьютеров.

Обучение модели INTELLECT-1 на 20 GPU-кластерах, распределённых по всему миру, источник
Обучение модели INTELLECT-1 на 20 GPU-кластерах, распределённых по всему миру, источник

Например, стартап Prime Intellect разработал модель распределённого интеллекта INTELLECT-3 на 106 млрд параметров (веса модели, обучающий фреймворк prime-rl, технический отчёт). Особенность модели — поддержка распределённых вычислений, то есть она нормально работает и синхронизируется на кластере машин по типу Infrastructure-as-Code (управление через Ansible), с автоматическим обнаружением новых машин в кластере, с горячей заменой машин, и проверками InfiniBand для изоляции медленных или сбойных машин в кластере. Теоретически, такая система может непрерывно синхронизироваться через интернет. И тогда это будет стандартная модель распределённых вычислений, как классический SETI@Home.

Prime Intellect создала фреймворк, который позволяет любому создать среду обучения с подкреплением, настроенную для конкретной задачи. Генеральный директор компании Винсент Вайссер (Vincent Weisser) говорит, что это приведёт к созданию ценных новых программ, включая специализированных агентов. По его словам, мир ИИ в настоящее время разделён между теми, кто полагается на закрытые американские модели, и теми, кто использует открытые китайские разработки. Технология Prime Intellect демократизирует ИИ, позволяя большему количеству людей создавать и модифицировать передовой ИИ для себя.

Непрерывная пакетная обработка (с постоянной нагрузкой на инференс) и обновление весов на лету в INTELLECT-3. После каждого деплоя (rollout) немедленно приходят запросы на новые роллауты. Политики для генерации деплоев обновляется на лету, как только они становятся доступной, то есть каждый роллаут может генерироваться несколькими политиками
Непрерывная пакетная обработка (с постоянной нагрузкой на инференс) и обновление весов на лету в INTELLECT-3. После каждого деплоя (rollout) немедленно приходят запросы на новые роллауты. Политики для генерации деплоев обновляется на лету, как только они становятся доступной, то есть каждый роллаут может генерироваться несколькими политиками

Андрей Карпати назвал среду обучения с подкреплением Prime Intellect «отличной работой [и] идеей». Он призвал исследователей открытого исходного кода использовать различные среды и адаптировать их к новым задачам, чтобы улучшить навыки передовых моделей новыми способами.

Версия BF16 запускается на двух H200, версия FP8 — на одном.

Cocoon

Свой гибрид «частного облака» и распределённых вычислений запустил даже Telegram, с поддержкой криптоплатежей. Проект Cocoon (Confidential Compute Open Network, но в русской транскрипции его шуточно называют «Сосун») анонсировали в ноябре 2025 года. По идее, это должна быть децентрализованная приватная сеть GPU-ускорителей, которую могут приватно арендовать любые клиенты и через API запрашивать выполнение необходимых вычислений, см. документацию для разработчиков.

Правда, старт получился не очень удачным. В январе 2026 года через месяц после запуска в онлайне было всего три пользователя, да и общая статистика не очень впечатляет:

Сама идея кажется правильной: будущий ИИ (возможно, Сверхинтеллект) должен работать в распределённой сети на компьютерах пользователей. Здесь только реализация подкачала. Сейчас Cocoon запускается только на GPU-серверах с ускорителями H100+ стоимостью около $30 тыс., что никак не назовёшь массовым оборудованием.

Тем не менее, отрасль децентрализованных GPU-вычислений уже зародилась и бурно развивается:


За последние два года ландшафт ИИ кардинально изменился. Meta открыла эпоху опенсорсных моделей, выпустив первую версию Llama в 2023 году. Следующим огромным прорывом стала недорогая и открытая модель рассуждений DeepSeek в январе 2025-го. Ещё несколько китайских моделей последовали её примеру. В ответ китайцам OpenAI впервые за несколько лет выпустила модель с открытым исходным кодом в августе 2025 года, но китайские Qwen от Alibaba, Kimi от Moonshot и R1 от DeepSeek оказались более популярными.

Сейчас в этой отрасли события развиваются так быстро, что даже год кажется вечностью. Только подумать, что Deepseek вышел всего год назад, а первая открытая модель Llama — два с половиной года назад. После этого всё и завертелось...

Конечно, помешанные на деньгах инвесторы и предприниматели надули знатный пузырь. С другой стороны, чем бы занимались айтишники в 2026 году, если бы не LLM? Это сейчас самая интересная технология, с которой можно поиграться...

© 2026 ООО «МТ ФИНАНС»