Обновить
1
Евгений Игнатьев@eignatiev

Программирую ИИ-агентов для бизнеса

6
Рейтинг
1
Подписчики
Отправить сообщение

Понятно, спасибо. Подход «оркестратор почти ничего не делает, суб-агент на любое сложное действие» забрал к себе - это даёт чёткий критерий, где проходит граница декомпозиции (мне как раз этого правила не хватало). Hermes посмотрю в первую очередь. Удачи с продолжением цикла, буду ждать следующих частей.

Спасибо, про OpenClaw и Hermes слышал, но руки не доходили попробовать - у меня самописное минимальное «отправил-получил» без оркестрации, для текущих
задач хватает. Паттерн «оркестратор + план + суб-агенты» действительно красиво решает проблему контекста: главный держит план, суб-агенты возвращают
короткий результат, оркестратор апдейтит и спавнит следующего. В Claude это нативно есть через sub_agents, но там декомпозиция всё равно на тебе. Вопрос практической стороны: как у вас оркестратор принимает решение, когда декомпозировать задачу на суб-агентов vs продолжать в одном контексте? У меня правило большого пальца «если контекст вырос больше N токенов - пора разбивать», но это явно костыль. И ещё, раз вы оба пробовали, что бы посоветовали для одиночного сетапа без команды: OpenClaw или Hermes?

Спасибо за разбор, проблема consent fatigue реальная - у меня свой кейс. Я не пилю под iOS, делаю ИИ-агентов для бизнеса на Claude API. Параллельно много работаю с Claude Code на Маке и тоже упёрся в постоянные подтверждения в долгих сессиях. Пошёл другим путём: одна рабочая машина, но обернул Claude Code в небольшого Telegram-бота на Python - любое сообщение в личку = запрос в Claude Code через subprocess + ответ обратно в TG. Получился «карманный терминал»: с iPhone в метро могу запускать задачи, проверять статус, читать логи. YOLO-режим выставлен в самом Claude. Это компромисс относительно вашей полной изоляции - но для одиночной разработки и личных задач хватает.

Вопрос: как у вас Claude в YOLO ведёт себя в долгих сессиях, когда контекст переполняется - есть какой-то паттерн «приостановки», или режете задачи на куски заранее? У меня в боте /new для сброса вручную, хотелось бы автоматизировать.

Понял, экспертный фильтр на выходе для медицины - золотое правило. Спасибо за разбор, забрал терминологию верификации к себе на полку.

Согласен, эталоны защищают только от грубых регрессий после правки промпта, а не от runtime-косяков. У нас в чат-ботах для МСБ это компенсирует другой контур: каждый завершённый диалог с лидом улетает в Telegram-канал владельца бизнеса, и он де-факто работает как живой ревьюер. Если бот несёт ересь — клиент видит в тот же день и правит промпт. Это «эксперт-в-цикле», по таксономии — сильнее автомата, но требует чтобы у владельца было время смотреть. Для mission-critical в медицине так не зайдёт, конечно. А как у вас сейчас приходит сигнал об ошибке агента в эксплуатации — через клиентскую обратную связь, ручной аудит, или есть автоматизированный мониторинг качества?

Спасибо за разбор, подтверждаю тезис «одна нейросеть не может служить эталоном для другой» из своей практики чат-агентов на Claude. Пробовал прогонять ответы Haiku через Sonnet как валидатор — Sonnet находил «ошибки» там, где их не было, и пропускал реальные косяки на одинаковых входных вопросах. Сошёлся на смешанном подходе:
эксперт-человек составляет 10–15 FAQ-эталонов (пары «типовой вопрос → эталонный ответ»), они лежат прямо в SYSTEM-промпте как few-shot. Перед каждой правкой промпта прогоняю эти 10 вопросов и сверяю с эталонами визуально. Это сэкономило кучу регрессий — модель тиражирует паттерн эталона вместо того чтобы обходить чёрный список запретов. По вашей таксономии — это «эксперимент + формальная спецификация» одновременно, в малом продакшен-варианте.

Интересный кейс, особенно про вызовы тестирования недетерминированных моделей. Сам столкнулся с этим на чат-агенте для малого бизнеса — Claude Haiku отвечал стабильно по смыслу, но формулировки плавали, и из-за этого вылезали внезапные косяки (то про сроки не то скажет, то предложит встречу клиенту слишком рано). Помогло неочевидное
решение: вместо чёрного списка запретов положил в SYSTEM-промпт FAQ-эталоны — 10-15 пар «типичный вопрос → эталонный ответ». Качество и сдержанность резко выросли, потому что модель тиражирует готовый паттерн вместо того чтобы обходить запрет. У вас архитектура сложнее, но интересно: как тестируете консистентность ответов на одинаковых вопросах? У Qwen/OpenAI плавающие формулировки больно бьют по UX в BI или вы нормализуете на выходе?

Хорошо разложено, особенно про «нейросеть как другой джун». От себя добавлю фаундерский взгляд: я делаю ИИ-агентов для малого бизнеса, программирую в паре с
LLM-ассистентом, и главная польза оказалась не в скорости написания кода, а в том, что ассистент играет «адвоката дьявола» в технологических развилках. Например, перед тем как тащить в проект LangChain, разложил с ним по полочкам что мне даст каждый слой абстракции — оказалось, из десятка нужным был ровно один. Сэкономило месяц отладки фреймворка, который мне не подходит. Для не-инженера такой режим работы оказался важнее, чем «допиши функцию»

Информация

В рейтинге
1 298-й
Откуда
Москва, Москва и Московская обл., Россия
Зарегистрирован
Активность

Специализация

Генеральный директор, Промпт-инженер
Ведущий
Управление проектами
Управление людьми
Английский язык
Python