Пост @levashove — Машинное обучение

27 мар в 13:151.3K

Машинное обучение * Контент и копирайтинг *

Духоты агентской пост. Расскажу про систему ограничений, которую я допиливал эту неделю. ИИ-агенты ошибаются довольно предсказуемо: выдумывают цифры, каскадируют ошибки между этапами, льют воду, теряют контекст, додумывают данные при сбоях WebSearch и выжирают токены со страшной силой. Что сделал:

Починил таймауты и ограничил запросы WebSearch. Раньше агенты зависали на длинных запросах и сжигали токены. Теперь у каждого субагента жёсткий лимит, параллельно работает не больше трёх запросов. Адаптивная глубина: если после 3 запросов уже 8+ источников — остальные пропускаются. Если после 5 запросов меньше 5 качественных — включается глубокий режим. Три сбоя подряд — полная остановка. Если поиск лёг — пустой конспект с маркером, а не выдуманные данные.

Добавил автоматические предохранители от перерасхода токенов. Конспект ресёрчера обрезается на 4-5K символов, а лишнее отсекается по приоритету тиров. Если 80%+ фактов из Tier 1-2 — фактчекер предлагает пропуск (экономия 4-6K токенов). И там много ещё всего.

Добавил оценку токенового бюджета. Теперь, например, перед запуском пайплайна видно: статья съест 14-20K токенов (5-7% дневного лимита). Можно решить, стоит ли запускать фактчекинг, если все источники и так Tier 1.

И завершил разбиение всех агентов на субагенты (кажется). Раньше один агент искал, писал и проверял — контекст распухал, ошибки каскадировали. Теперь сборщик, автор и верификатор работают в песочницах. Каждый видит только свои данные.

Запустил сбор отчётов генерации и ревью. Раз в неделю анализирую отчёты, ищу паттерны ошибок и обновляю правила. Замкнутый цикл: ошибка → отчёт → новое правило → следующая генерация лучше. Автоматику тут не стал делать, чтобы не допустить попадание галлюцинаций в правила.

Главный вывод: не пытайтесь предотвратить все ошибки ИИ-агентов. Стройте систему, которая их обнаруживает, логирует и улучшает правила на основе данных.

P.S.: Что в работе и про что постараюсь рассказать: пишу backend runtime на Python, чтобы wizard-поведение работало не только в Claude Code, но и через API, в своём бэкенде или другом LLM. Короче, чтобы не замыкаться только на Claude, а использовать агенты и в других нейросетях. Но тут ещё тестировать и тестировать.

Больше и раньше в канале