Обновить

Комментарии 8

Да, вот статьи полезные от Anthropic

- https://www.anthropic.com/research/building-effective-agents — 6 паттернов агентов, от цепочки до оркестратора                                                                                                 

  - https://www.anthropic.com/engineering/effective-context-engineering-for-ai-agents — что реально влияет на качество агента                                                                                      

  - https://www.anthropic.com/engineering/writing-tools-for-agents — как описывать инструменты чтобы агент их правильно юзал

  - https://www.anthropic.com/engineering/effective-harnesses-for-long-running-agents — как строить обвязку для автономных агентов


мне понравилось как тут еще разобрали:
https://47billion.com/blog/ai-agents-in-production-frameworks-protocols-and-what-actually-works-in-2026/

а вот книга https://www.amazon.com/Building-Agents-LLMs-Knowledge-Graphs/dp/183508706X

кажется даже кто то переводил ее в интернете можете поискать)

Спасибо =) исчерпывающий комментарий. Теперь мне есть чем заняться вечером =)))

Классная статья. Но вычитки не хватает.

Например, "Второй анализирует функции Третий собирает отзывы" - сбитый список.

А для схем лучше использовать какой-нибудь mermaid (flowchart) - не будет ни висящих концов, ни лишних зигзагов, ни слипающихся стрелок, ни старта в рандомном месте.

а на базе какого инструмента делали workflow?

если речь про диаграммы то это нативный make chart из notion
если построение ворклоу архитектуры: то я использую langchain, можно и n8n и flowise

А как валидируете всю систему?

Я использую такие методы:
1. Трейсинг каждого решения модели
2.. Метрики архитектурного здоровья
Проверяю Среднее число итераций на запрос (норма для ReAct 3-5, если 15+ что-то не так)
Процент задач где оркестратор создал «лишних» субагентов и т.д.
Откуда брать метрики ? 1 по бизнес требованиям, или смотреть бенчмарки рынка.
Подглядеть можно тут в документациях https://www.promptfoo.dev/docs/intro/ и тут например DeepEval


Дополнительно есть еще такой подход называется "chaos testing" это когда намерено допускаете ошибку и смотрите как LLM модель реагирует.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации