ignat_penshin12 мар в 21:03

9 агентов, 6 моделей, 1 сервер: как собрать ИИ-компанию на open-source в марте 2026

Средний

14 мин

8.4K

Машинное обучение * Open source * Искусственный интеллектDevOps * Natural Language Processing *

Кейс

Комментарии 18

Ingref 12 мар в 21:19

Подход интересный. Но хотелось бы примеры работы.

ignat_penshin 13 мар в 09:19

Справедливо. Сейчас это исследование + интерактивная визуализация, а не готовый продукт. Следующий шаг — playground на кластере, где можно будет скормить запрос и посмотреть, как агенты передают артефакты друг другу. Когда будет — напишу отдельный пост :)

aborouhin 12 мар в 22:31

4 штуки А100 плюс сервер, куда их поставить, - по нынешним ценам ~3,5 млн. 200 месячных подписок на Claude Max 20x :) Покупаем сколько нужно, чтобы не влетать в лимиты, ходим с каждой через свой прокси, чтобы никто не догадался... Нет, я понимаю, что рассчитывать на подписки в долгосрочной перспективе не стóит. Но, блин, я бы не рискнул вложить такую сумму в стремительно устаревающее железо, не будучи уверенным, что оно хотя бы себя отобьёт :)

Не очень понятно, а в чём Ваш бизнес на этом вот всём?

ignat_penshin 13 мар в 09:22

4×A100 покупать с нуля ради эксперимента — конечно, безумие. Статья про архитектуру «как собрать», а не «стоит ли покупать сервер». Для тех, у кого железа нет — есть MVP на 24 GB, и комментарий @Triton5 ниже отлично показывает, что через API можно собрать почти бесплатно. Вариант хорош, если компания уже эксплуатирует свой кластер, и там есть простаивающие ресурсы для экспериментов и тд.

kasthack_phoenix 13 мар в 00:03

Слоп-статья со ссылкой на слоп-визуализацию фантазии на тему слопа.

То есть, серьёзно, я взял первую ссылку — там навайбанный дизайн со статическими данными. Открыл гитхаб — там даже в теории нет ничего, кроме статики, зато красивые логи бегут и есть коммит, зачем-то стыдливо удаляющий MD-файлы от Claude, из которых собран этот слоп-пост.

Сама статья — слоп на слопе и слопом погоняет, что видно не только по характерному стилю и пунктуации(что забавно выглядит в комментарии, где я набираю тире через wincompose), но и тупейшим глюкам от заканчивающегося контекста и неспособности LLM считать.

Например, текст начинается с обещания:

. Минимальный сетап — 24 GB VRAM (одна RTX 4090).

Доходим до деплоя:

Развёртывание: от домашнего GPU до продакшена

5 агентов, 3 модели, 24 GB VRAM:

1x GPU (80 GB)

~56 GB (KV cache + headroom)

Да, 24 гигабайта. RTX 4090. Пять агентов, которые принимают запрос, проектируют, пишут код, тестируют и отдают результат. На видеокарте из игрового компьютера.

Ммм, идея статьи пала жертвой нейронного склероза, вызванного потерей контекста.

Ладно, предположим, что "автор"(промптер гейронки, whatever) опечатался. Взглянем на расчёты цен, которые сложно провалить, закончив хотя бы начальную школу, а не дорастя до PhD, как написано в профиле:

При API-ценах (допустим, $3/M input + $15/M output для frontier-модели) один сложный запрос обходится в $0.50-2.00. При 1000 запросах в день — $500-2000/день. На своём железе — фиксированная стоимость GPU.

Автор, значит, собрался тратить 35-130 миллионов токенов в день, если я ещё могу разделить ожидаемые расходы на цену токенов. В своей схеме он, напомню, собирается использовать RTX 4090 или кластер A100, чтобы запускать QWEN на 397B. Эта редакция qwen выдаёт 50 токенов в секунду на зверь-машине с четырьмя RTX PRO 6000(~$8000 за каждую карту, т.е. сервер общей ценой около $40k), если верить реддиту.

Опять же, учимся делить и умножать: машина на RTX 6000 может производить 50 токенов в секунду * 86400 секунд в дне = 4.3 миллиона токенов в сутки, даже если мы игнорируем тот факт, что загрузка нелинейная, а пользователи не будут ждать часами в очереди, и берём теоретический максимум. Для 130 миллионов токенов в день надо 40 таких машин($1.6 миллиона чистых расходов на серверы). Если мы используем на сервере по одной консумерской карточке(та самая 4090 из параграфа выше), которая свопает модель в RAM, то производительность на каждой машине можно делить на двадцать — тут уже нужен небольшой датацентр при таком раскладе, который всё ещё стоил бы под миллион долларов даже без санкционных ограничений на ввоз видеокарт.

То есть, автор со всей нейронной непосредственностью предлагает сделать миллион-два долларов(очевидно, нашёл их случайно в кармане лёгкой куртки, надев её впервые с осени) фиксированных затрат, чтобы получить минимальную окупаемость системы, не считая затрат на размещение, в 3+ года(как раз примерно срок службы карточек).

Я за бан.

ignat_penshin 13 мар в 09:24

Два валидных бага, спасибо:

24 GB vs 80 GB — диаграмма нарисована для A100, а текст говорит «RTX 4090». Конфигурация A задумана как «от 24 GB (RTX 4090, три модели по 4-16 GB) до 80 GB (A100 с запасом под KV cache)». В тексте это склеилось. Поправлю.
Экономика $3 / $15 — цены взяты для проприетарных frontier-моделей (Claude Opus, GPT-5), не для open-source API. Аргумент был «зачем платить за проприетарный API, если open-source того же качества». @Triton5 ниже показал, что open-source через OpenRouter стоит в 10 раз дешевле — что, собственно, подтверждает тезис: open-source выгоднее. Но сравнение сформулировано криво, пересчёт нужен. Исправлю.

По поводу слопа: Claude использовался как инструмент для написания и редактуры — как, собственно, и указано в коммитах. Исследование (анализ 30+ моделей по 12 бенчмаркам, маппинг на роли, конфигурации деплоя) — это ручная работа. MD-файлы удалены из репо, потому что это рабочие черновики, а не финальные артефакты — README остался.
Дашборд — да, v1, статические данные. Playground с живым инференсом на кластере — следующий этап.

kasthack_phoenix 13 мар в 21:37

конфигурации деплоя) — это ручная работа.

Я бы поверил, если бы там сходилась элементарная арифметика.

Вы пишете: "запустим qwen на 397B параметров". QWEN даже на A100(я уже не говорю про 4090) даёт 7(семь) токенов в секунду. Для думающих запросов, которые токены тратят сотнями тысяч, это означает время выполнения >= 10 часов.

Это ломает любые аргументы про "зачем платить за проприетарный API" — у любого человека, которому релевантно использование LLM, рабочий день стоит дороже одного доллара, который облачный провайдер попросит за инференс в таком объёме.

Люди не делают такие ошибки. Если бы вы реально что-то запускали или хотя бы ресёрчилии тему, в статье и был бы текст "локально запускать без миллиона долларов смысла нет, т.к. инференс занимает вечность". LLM же шпарит, не думая — получается такой нейрослоп.

маппинг на роли

анализ 30+ моделей по 12 бенчмаркам

это ручная работа

Игнат, у вас есть таблица "роли", где есть роли "Оркестратор", "Критик" и "Consumer GPU". AI в приступе слопофазии смешал заявленные роли и железо, на котором должны выполняться модели. Я повторю ещё раз: люди не делают такие ошибки. Кого и зачем вы пытаетесь обмануть?

И вообще, спросить LLM и скопипастить выхлоп, как несложно заметить в diff того самого коммита — это не анализ:

-# Agent Factory: Open-Source Model Selection Guide
-
-> **Date:** March 2026
-> **Goal:** Map the best open-weight LLM to each agent role, optimizing for GPU-usage / Effectiveness / Quality.
-> **Constraint:** All models must have open weights on HuggingFace. No proprietary APIs.

Вы спросили нейросеть, она выдала вам слопа, вы его кидаете в лицо читателям и пытаетесь отрицать, когда вам на это указывают.

Я не желаю читать не верифицированный нейрослоп в свободное время — мне хватает на работе того, что я бью палкой разработчиков, которые вместо того, чтобы сделать свою работу и нормально подготовить пулл-реквест, пусть и с помощью AI, просто присылают выхлоп нейронки в виде PR и ожидают, что ревьюер будет писать десятки комментариев, которые они потом скопипастят в чат. Это элементарное оскорбление читателя: промтер берёт шланг и начинает того поливать нейронным дерьмом, которое сам не удосужился даже прочитать.

ignat_penshin 14 мар в 06:19

Два конкретных бага от вас увидел:

«Consumer GPU» в столбце «Роль» — да, ошибка. Столбец переименован, строки переструктурированы.
Throughput — главная проблема, которую статья замалчивала. Qwen 397B на одной A100 в INT4 даёт ~7-15 tok/s. Один агентный запрос через 9 агентов = ~100-200K токенов = 3-6 часов. Это ломает любой интерактивный сценарий. Добавил секцию «Слон в комнате: скорость инференса» с честной таблицей throughput по конфигурациям.

По поводу Claude: да, Claude использую как инструмент — косяки исправляю по мере нахождения.

Если закинете пример аналогичной статьи на русском в этом домене и докажете, что подобранные модели — слоп и неправда для выбранной ролевки агентов (а в этом и есть основное study работы и ее смысл — показать маппинг ролей и моделей) — будет здорово, и я обращу внимание.

Пока работаю с вашей конструктивной критикой (и говорю вам за нее спасибо) — редактуру текста по конструктиву провел (с помощью Клода, конечно же). А ваши личные переживания по поводу слопа строго игнорирую, тк верю, что в "нейрокаше и слопе" этой статьи ознакомительной пользы больше, чем в среднем может предоставить разработчик/исследователь в данном домене - человек просто не переварит объем контекста (если это не его PhD), чтобы сделать подобное study в рамках текущего состояния AI-индустрии в РФ.

К тому же, у Вас очень пессимистичное отношение к AI. Web Search Tools анализируют ресурсы не хуже человека, а поиск паттернов и закономерностей — это вполне себе инструмент, который упрощает жизнь. Так что горячо рекомендую пересесть на AI, чтобы не "бить палкой" своих бедных разработчиков за плохой MR/PR — их уже давно шикарно проверяет CodeRabbit :)

ignat_penshin 14 мар в 06:56

В целом, я крайне позитивно отношусь к критике в комментариях и использую это как Reinforcement Learning для данной статьи. Каждое замечание импрувит ее качество, а новый читатель будет видеть все более адекватный вариант текста и сможет от него "стартовать", если захочет решить задачку, которая здесь описана.

Triton5 13 мар в 01:00

"При API-ценах (допустим, $3/M input + $15/M output для frontier-модели) один сложный запрос обходится в $0.50-2.00. При 1000 запросах в день — $500-2000/день. "

Нет таких цен на упомянутые модели:) Всё в разы дешевле.

MoonshotAI: Kimi K2.5
$0.45/M input tokens $2.20/M output tokens
https://openrouter.ai/moonshotai/kimi-k2.5

MiniMax: MiniMax M2.5
$0.27/M input tokens $0.95/M output tokens
https://openrouter.ai/minimax/minimax-m2.5

Qwen: Qwen3.5 397B A17B
$0.39/M input tokens $2.34/M output tokens
https://openrouter.ai/qwen/qwen3.5-397b-a17b

DeepSeek: DeepSeek V3.2
$0.26/M input tokens $0.38/M output tokens
https://openrouter.ai/deepseek/deepseek-v3.2

Qwen: Qwen3 Coder 480B A35B (Qwen2.5-Coder-32B не было, взял новее и гораздо лучше)
$0.22/M input tokens $1/M output tokens
https://openrouter.ai/qwen/qwen3-coder

Z.ai: GLM 4.7
$0.38/M input tokens $1.98/M output tokens
https://openrouter.ai/z-ai/glm-4.7

Mistral: Mistral Small 3.2 24B (Devstral Small 2 не было, взял новее и гораздо лучше)
$0.06/M input tokens $0.18/M output tokens
https://openrouter.ai/mistralai/mistral-small-3.2-24b-instruct

Ключевое допущение автора в расчёте $0.50–2.00 за запрос базируется на ценах проприетарных frontier-моделей ($3/$15 за млн токенов) и подразумевает следующую нагрузку на один «сложный агентный запрос»:

Input ~100K–150K - Контекст, инструкции, артефакты от других агентов

Output ~10K–90K Развёрнутый ответ, код, спецификации

Минимум: 0.1M × $3 + 0.01M × $15 = $0.45 ≈ $0.50
Максимум: 0.15M × $3 + 0.09M × $15 = $1.80 ≈ $2.00

Исходя из этого, рассматривая реальные цены на модели, уже сразу можно пересчитать расходы в схеме автора, они будут меньше примерно в 10 раз:)

Но!
На Openrouter можно использовать БЕСПЛАТНО до 1000 обращений в день (как раз случай автора статьи) на бесплатном лимите (при балансе от 10 баксов).

Вот бесплатные модели, достаточно мощные, имеющие хорошие результаты в тестах и и отлично работающие на данный момент:
https://openrouter.ai/stepfun/step-3.5-flash:free
https://openrouter.ai/arcee-ai/trinity-large-preview:free
https://openrouter.ai/nvidia/nemotron-3-super-120b-a12b:free

А также может пригодиться не самая новая, но удачная модель Mistral Large, там дают бесплатно 1 миллиард токенов в месяц (доступ через API Mistral Platform).

Также через API Google AI Studio можно получить доступ к новейшей Gemini 3.1 Flash Lite (бесплатно до 500 запросов в день) и например Gemma 3 27B ( бесплатно целых 14400 запросов в день).

Конечно, из-за ограничений на количество бесплатных запросов в секунду придётся запросы ставить в очередь (что в целом хорошая практика).

Итого: абсолютно рабочий MVP при околонулевых затратах (если вы ещё не положили $10 на opеnrouter) + на всякий случай иметь запасных пару баксов на opеnrouter, на варианты подключения дешёвых платных моделей как резервный вариант в цепочке запросов (fallback).

ignat_penshin 13 мар в 09:28

Cпасибо за подборку!
Вы правы — мои $3 / $15 были для проприетарных моделей (Claude/GPT), а не для open-source API. При ценах OpenRouter агентный запрос обходится в $0.03-0.15, а не $0.50-2.00. И это, похоже, делает аргумент «self-hosting дешевле API» гораздо слабее для малых объёмов.

Реальные аргументы за self-hosting при таких ценах: latency (нет сетевых roundtrip между агентами), приватность данных и отсутствие зависимости от rate limits / доступности сервиса. Экономический аргумент начинает работать только при серьёзных объёмах: исправлю секцию, чтобы это было наглядно показано.

Про бесплатные тиры — просто золото для MVP!! Можно собрать PoC на OpenRouter + Google AI Studio с нулевыми затратами и валидировать архитектуру до любых вложений в железо. Возьму на вооружение.

Triton5 13 мар в 13:00

Спасибо за исправления, теперь всё соответствует текущим ценам и реалиям:)

Концепт/MVP/PoC на бесплатных моделях ещё имеет невероятное преимущество, что можно всячески менять архитектуру, экспериментировать с количеством токенов, делать сколько угодно экспериментов с взаимной валидацией от нескольких нейросетей, с промежуточными обработками, гонять разные модели с разными промтами, и всё такое:) Ну а что, всё же бесплатно, кроме нашего личного времени:)

Если Вы будете делать опенсорс MVP/PoC на бесплатных вариантах с openrouter, ещё также плюс в том, любой хабравчанин сможет это сразу повторить (ибо даже без $10 на OpenRouter доступны всего лишь 50 запросов в день, но для того чтобы просто запустить сборку из нескольких моделей несколько раз - вполне хватит). Это определённо плюс для будущей статьи:)

Также хочу напомнить (для читающих Хабр новичков) тот факт, что работа нейросетей крайне сильно зависят от системного промта (лучше на англ языке) и от температуры, и любую прекрасную идею можно легко запороть плохим промтом и неправильной температурой:)

Всем удачных экспериментов :)

ignat_penshin 13 мар в 09:44

Спасибо @kasthack_phoenix, @Triton5, @aborouhin за разбор — сделал правки:

Config A (MVP): убрал противоречие «RTX 4090» / «1x GPU (80 GB)». Теперь чёткая таблица: 3 модели, 24 GB, влезает на RTX 4090. A100 упоминается отдельно. Добавил ограничения MVP.
Цены API: заменил фантазийные $3 / $15 на реальные цены OpenRouter (спасибо @Triton5 за подборку). Пока вывод: для MVP и прототипирования API дешевле self-hosting. Self-hosting оправдан при требованиях к latency, приватности данных или высоких объёмах.
Убрал overclaiming: «без людей в цикле», «задача на выходные», «фабрика фабрик» — заменил на конкретику про следующие шаги и валидацию.

Triton5 13 мар в 14:46

"Слабое место: tool calling

Честно — tool use остаётся самым слабым звеном open-source моделей. Лучший tau-bench: GLM-4.7 с 87.4%. Лучший BFCL v4: Qwen3.5-122B-A10B с 72.2%."

https://taubench.com/#leaderboard
Из опенсорсных лидер Qwen3-Max-Thinking и DeepSeek-V3.2

на Openrouter:
Qwen: Qwen3 Max Thinking Starting at $0.78/M input tokens | Starting at $3.90/M output tokens
DeepSeek: DeepSeek V3.2 $0.26/M input tokens | $0.38/M output tokens
То есть, Qwen3 Max Thinking безусловный лидер, а DeepSeek ненамного хуже, но значительно дешевле.

Кстати, про новичков: Step-3.5-Flash (для MVP можно взять free версию на openrouter) вообще по Tau2 94.4% (по заявлениям производителя), то есть это какой-то тюнингованный агентный монстр на стероидах:)
https://llmbase.ai/models/stepfun/step-3.5-flash/

По BFCL
https://gorilla.cs.berkeley.edu/leaderboard
Сразу бросается в глаза Z.ai: GLM 4.6

Из невошедшего в эти списки:
Nvidia позиционирует NVIDIA: Nemotron 3 Super как предназначенную для function-calling .
https://research.nvidia.com/labs/nemotron/files/NVIDIA-Nemotron-3-Super-Technical-Report.pdf

В принципе, можно даже скачать тестовые задания бенчмарков и самому прогнать их на моделях, но это уже отдельная кроличья нора:)

Можно попробовать усложнить себе задачу: использовать для цепочки Tool Calling/Function Calling Structured Outputs который всегда выдаёт валидный JSON .
OpenAI ввёл Structured Outputs в конце 2024 года как отдельный режим.
Можно попробовать с gpt-4o-mini это самая дешёвая из их платных моделей.
https://openrouter.ai/openai/gpt-4o-mini
Цены: Starting at $0.15/M input tokens | Starting at $0.60/M output tokens

Для селф-хостинга: модели gpt-oss с ключом strict: true.
gpt-oss-120b и gpt-oss-20b тоже поддерживают структурный вывод, т.к. эти модели тоже OpenAI выпустили и это объявлено в спецификациях.
https://developers.openai.com/api/docs/models/gpt-oss-120b
https://developers.openai.com/api/docs/models/gpt-oss-20b

Структурный вывод легче валидировать и уточнять.
Недостаток использования Structured Outputs в том, что мы жёстко привязываемся к моделям от OpenAI. Вообще все модели, где в описании применения написано что-то типа writing, storytelling, role-play и тому подобное, могут поддерживать structured outputs, но это зависит от промта и может не всегда срабатывать, у OpenAI это их нативный функционал.

В общем, всё надо тестировать на конкретной области применения :)

ignat_penshin 15 мар в 14:37

Спасибо за глубокий разбор секции «tool calling». Обновился по вашим наводкам. Вот что подтвердил при проверке:

τ²-Bench: Step 3.5 Flash — 88.2% (это по статье — на llmbase.ai 94.4%, но оставлю цифру из статьи). Все равно это лучший open-source результат. Получается, обгоняет GLM-4.7 (87.4%). Разрыв с проприетарными топами (Claude Opus 4.5, 92.5%) — 4.3%, полгода назад было ~10%. Tool calling выносим из блокеров :) Хорошая динамика развития

gpt-oss — это прямо находка. 120B/5.1B active, Apache 2.0, нативный Structured Outputs, помещается на одну A100. Для агентного пайплайна, где артефакты передаются в JSON между агентами, гарантированный structured output может быть надёжнее, чем general function calling. Добавил в статью.

Step 3.5 Flash, действительно, есть в бесплатном варианте на OpenRouter — это мощный аргумент для MVP.

Обновил секцию с таблицей актуальных τ²-Bench результатов, описанием Structured Outputs и gpt-oss.

Пора закреплять авторство @Triton5 за парой секций этой статьи, похоже :)

UtrobinMV 13 мар в 17:09

На 1x4090 нормального ничего не поднять. А если и поднимите, то будет в лучшем случае 4 токена в секунду. Проверено. А статья это жуткая генерация LLM, реального опыта в ней 0.

ignat_penshin 15 мар в 14:23

Да, опыт в эксплуатации своей ИИ-фабрики пока предстоит набрать. Решил сделать эту статью стартовой точкой, чтобы понимать, куда двигаться.
В комментариях люди дают бесценные рекомендации: и это очень здорово! Статью потихоньку улучшаю на базе рекомендаций и новых источников информации от знатоков домена.

Спасибо и вам за комментарий, в любом случае

SlavaLobozov 30 мар в 09:12

Хороший подход с разделением ролей - “9 logical - 5 physical” это грамотная оптимизация.

что интересно: все 9 агентов у вас stateless между
вызовами. Orchestrator решает кому передать задачу, но не помнит как предыдущая задача повлияла на “настроение” системы.

Я экспериментирую с другой архитектурой - один агент, но с
persistent emotional state. Kernel решает КАК отвечать
(детерминированная математика, zero LLM calls), а LLM решает
только ЧТО сказать. По сути ваш orchestrator - но не для
маршрутизации задач, а для модуляции поведения.

Тезис “специализация бьёт универсальность” - полностью согласен.
У меня аналог: разделение на kernel (pure math, deterministic)
и LLM (verbalization). Каждый делает то что умеет лучше.
Kernel не пытается генерировать текст. LLM не пытается
считать эмоции.

Про 211GB VRAM - а рассматривали вариант где часть логики
вообще не на LLM? У меня kernel работает за ~1ms на CPU, ноль GPU. LLM нужен только для финального текста.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий