КУЗНЯ: операционная система для AI-агентов на вашем GPU / Песочница / Хабр

Когда мы говорим об «AI-автоматизации», чаще всего представляется что-то волшебное: нейросеть, которая сама пишет код, генерирует картинки или управляет процессами. Но на практике всё выглядит иначе.

У разработчиков игр — десятки скриптов, которые прогоняют текстуры через ComfyUI, ручная вычитка промптов, бесконечный экспорт/импорт. У «вайб-кодеров» — коллекция API-ключей, разрозненных нейросеток и скриптов-«костылей», которые держатся на честном слове. В enterprise — мощные GPU простаивают, потому что нет инструмента, который бы связал бизнес-задачи с железом.

Я столкнулся с этой проблемой, когда занимался пайплайнами генерации контента. Каждый раз одно и то же: есть GPU, есть задачи, но нет единой системы, которая бы оркестрировала их в автоматическом режиме.

Так родилась идея операционной системы для AI-агентов КУЗНЯ (Конвейер Управления Знаниями и Нейросетевыми Ядрами), которая объединяет Git, Jira, ComfyUI, LLM и любые GPU в единый пайплайн. Под капотом — адаптированный Apache MiNiFi C++, лёгкие агенты для работы с графикой и текстом, а поверх — REST API и визуальный редактор.

В этой статье я расскажу:

почему существующие инструменты не решают задачу целиком,
как устроена архитектура КУЗНЯ,
что уже работает, а что в плане,
и почему я считаю, что оркестрация AI-агентов — это следующий шаг после «просто нейросетей».

Код пока не открываю, но платформу уже тестирую на реальных задачах. Дальше — детали архитектуры и текущий статус.

Проблема: рынок говорит «AI», а делает «кухня на кухне»

За последние два года AI-инструменты стали доступны практически каждому разработчику. ComfyUI генерирует текстуры, LLM пишут код и сценарии, а локальные GPU позволяют запускать всё это без облачных провайдеров.

Но чем больше инструментов, тем хаотичнее становится их использование. В реальных проектах я вижу три типичные ситуации.

1. Геймдев: художники тратят часы на рутину вместо творчества

Типичный пайплайн генерации текстур выглядит так:

художник пишет промпт,
запускает пайплайн ComfyUI вручную (если готовый workflow уже есть),
сохраняет результат,
переименовывает файлы,
загружает в репозиторий,
создаёт задачу в Jira для ревью.

При десяти итерациях на один ассет — это часы ручной работы. При этом сам ComfyUI работает на мощной GPU, которая могла бы генерировать варианты круглосуточно, но вместо этого простаивает.

2. Vibe-кодеры: хаос из нейросетей, API и скриптов

Разработчики, которые активно используют AI для кодинга, собирают собственные «пайплайны» из:

вызовов OpenAI / DeepSeek API,
локальных моделей через llama.cpp,
скриптов на Python/Bash,
CI/CD для автоматической проверки.

Всё это держится на связках вида «скрипт вызывает скрипт, который дёргает API, результат парсится grep-ом». Такая конструкция работает ровно до первого изменения — после неё править её становится больнее, чем написать заново.

3. Enterprise: GPU есть, данные есть, связующего звена нет

В компаниях, где есть собственные GPU-кластеры, часто стоит обратная проблема. Железо закуплено, данные подготовлены, но нет инструмента, который бы:

принимал задачи из бизнес-систем (Jira, Git, ERP и другие),
автоматически выбирал нужную AI-модель,
запускал её на нужном GPU,
возвращал результат обратно в процесс.

В результате инженеры пишут велосипеды для каждой новой задачи, а GPU простаивают 80% времени.

4. Инструменты не закрывают полный цикл

ComfyUI — отлично генерирует картинки, но не умеет в бизнес-логику. Не получится сказать ему: «возьми задачу из Jira, сгенерируй текстуры по описанию, результаты положи в Git репозиторий и отрази изменения в задаче».
Apache NiFi / MiNiFi — мощные инструменты оркестрации, но их экосистема не знает про AI-агентов. Нет готовых процессоров для работы ComfyUI, нет понимания LLM-пайплайнов.
Самописные скрипты — работают ровно один раз, а потом превращаются в legacy, который страшно трогать.

Получается разрыв: инструменты для генерации есть, инструменты для оркестрации есть, но между ними — пропасть, которую каждый заполняет своим велосипедом.

Решение: КУЗНЯ как единая платформа для AI-автоматизации

КУЗНЯ — это попытка собрать разрозненные инструменты в единую систему, где:

бизнес-задачи (коммиты в Git, тикеты в Jira) автоматически превращаются в AI-пайплайны,
GPU работают не от случая к случаю, а постоянно загружены оркестрируемыми задачами,
разработчики и художники занимаются творчеством, а не рутиной.

Архитектурно платформа делится на три слоя.

Ядро: оркестратор на базе Apache MiNiFi C++

В качестве основы для оркестрации я выбрал Apache MiNiFi C++ — лёгкую версию Apache NiFi, предназначенную для работы на границе сети и в ресурсо-ограниченных средах.

Почему MiNiFi:

Высокая производительность — C++ ядро без накладных расходов JVM.
Гибкая модель процессоров — каждый процессор (Processor) — это независимый компонент с чётким входом и выходом.
Потоковая модель данных — данные движутся в виде FlowFile, что позволяет строить сложные пайплайны без промежуточного сохранения на диск.

КУЗНЯ расширяет MiNiFi своими кастомными процессорами (NodeProcess), унаследованными от ProcessGroup. Ключевое нововведение — именованные порты, которые позволяют связывать процессоры не только в линейные цепочки, но и в сложные графы с явными точками входа и выхода.

В планах — добавить механизм горячей перезагрузки конфигурации (Warm-Redeploy), чтобы пайплайны можно было менять без остановки системы.

Прослойка: AI-агенты

Над ядром надстраиваются агенты — специализированные службы на машине/виртуалке с GPU для работы с AI-моделями.

esb-comfy-cuda — обёртка вокруг ComfyUI. Позволяет:

отправлять промпты на генерацию,
получать готовые изображения,
управлять очередью задач,
масштабироваться на несколько GPU.

esb-llm — агент для работы с большими языковыми моделями, локальная обёртка над llama.cpp для работы в изолированных средах.

Помимо этого, есть esb-cuda — лёгкий сервис для быстрых GPU-операций (масштабирование изображений, CV-обработка), который не требует тяжёлых зависимостей.

Интерфейсы: управление и визуализация

Управлять платформой можно двумя способами.

Визуальный редактор (NodeJS + Rete.js) — графическая среда для сборки пайплайнов. Без него создать или изменить flow невозможно.

REST API (на базе фреймворка Oat++) позволяет:

запускать задачи,
получать статусы выполнения,
интегрироваться с внешними системами (Git, Jira, CI/CD).

Что уже работает

На данный момент тестируется базовая инфраструктура:

Адаптированное ядро MiNiFi C++ — добавлена поддержка именованных портов.
REST API на Oat++ — минимальный набор эндпоинтов для управления пайплайнами.
esb-comfy-cuda — прототип агента, умеет отправлять задачи в ComfyUI и возвращать результаты в пайплайн.
Тестовый пайплайн — «запрос → генерация текстур → сохранение» — сейчас на стадии отладки. Ожидается, что он будет проходить без ручного вмешательства после завершения настройки.

В ближайших планах — связать это в законченный сценарий «Git → AI-агент → Jira», который станет первой публичной демонстрацией.

Почему я считаю, что это важно

Для геймдева — это переход от ручной генерации ассетов к автоматизированной фабрике контента. Художник задаёт стиль и контролирует качество, а всё, что можно автоматизировать, автоматизируется.

Для разработчиков и «вайб-кодеров» — это единый пайплайн вместо коллекции скриптов. Один инструмент, который управляет всеми AI-агентами, а не десять костылей, которые разваливаются при обновлении API.

Для enterprise — это способ загрузить простаивающие GPU реальными бизнес-задачами. Вместо того чтобы писать очередной интеграционный слой, компании получают готовую платформу, которая умеет разговаривает с бизнес-системами и нейросетями на одном языке.

Вместо заключения

КУЗНЯ — это не очередная нейросеть и не очередной low-code инструмент. Это попытка создать операционную среду для AI-агентов, где они перестают быть разрозненными игрушками и становятся частью промышленного пайплайна.

Сейчас платформа находится в активной разработке. Код пока не открываю, но приглашаю к диалогу:

Если у вас есть GPU и задачи, которые можно автоматизировать — давайте обсудим.
Если вы занимаетесь геймдевом и хотите ускорить пайплайн генерации контента — мне интересен ваш опыт.
Если вы просто энтузиаст и хотите следить за проектом — подписывайтесь на Telegram‑канал: https://t.me/kuzn_ai

Следующая статья в цикле — «КУЗНЯ: платформа, которая превращает GPU в фабрику контента». Разберём, как устроена работа с железом, как считать экономику и почему загрузка GPU 24/7 — это реалистичная цель.