vaganovelena11 мар в 19:29

Один промпт — это не продукт. Как мы перестали обманывать себя и собрали мультиагентный пайплайн

5 мин

12K

Искусственный интеллектNatural Language Processing * Управление продуктом * Машинное обучение * Управление медиа *

Комментарии 10

FSmile 11 мар в 19:38

хорошо когда ресурсы бесконечные

vaganovelena 11 мар в 19:44

это да, но у нас ресурсы очень конечные, поэтому и считаем. 14 центов за рерайт через 5 агентов. Один монопромпт где-то 3 цента, но куча текстов потом переделывать руками. Час редактора стоит сильно дороже. Бесконечные ресурсы - это как раз когда можно себе позволить не автоматизировать и платить людям за ручную переделку.

SovGVD 11 мар в 19:50

Когда то Фонд так сделал чтобы машины быстрее и качественне делать. Инструменты новые, правила старые - каждый должен заниматься своим делом.

Вы промпт инъекции как то фильтруете или в целом такой проблемы нет пока?

vaganovelena 11 мар в 20:06

Про форд точно, спасибо. Про промпт-инъекции - у нас специфика в том, что пока на вход поступают статьи из проверенных источников, а не пользовательский ввод в свободной форме. Это сильно сужает возможность атаки - в новости РИА или ТАСС вряд ли будет ignore previous instructions. Агенты работают с изолированными контекстами и не имеют доступа к системным промптам друг друга. Даже если в тексте окажется что-то похожее на инъекцию, у каждого агента слишком узкий мандат, чтобы это привело к чему-то опасному. Максимум он его проигнорирует или пометит как аномалию.

Но вообще-то дальше у нас будет ручной ввод, редакции смогут задавать свои правила и инструкции. Это уже пользовательский ввод, надо закладывать, наверно, санитизацию на входе, валидация формата, разделение пользовательских данных и системных промптов.
Спасибо, что подсветили, пока перспектива не сильно проработана у нас, вижу.

pol_pot 12 мар в 00:06

Рерайт новостей для региональных СМИ

Что? Соловьиный помет культивируете?

vaganovelena 12 мар в 05:57

региональные СМИ (наша ЦА) - это всякие городские порталы, областные редакции. Те, кто пишет про ремонт дорог в Воронеже, закрытие школы в Пскове и подобное. У них штат 3-7 человек и бюджет, на который в Москве не наймёшь даже стажёра. Они рерайтят федеральные новости под свой регион, это может быть до 50% их ежедневного контента. Мы забираем эту тупняковую работу, чтобы журналисты занимались тем, что умеют, то есть местной повесткой.

Smartor 12 мар в 00:31

" у нас специфика в том, что пока на вход поступают статьи из проверенных источников, а не пользовательский ввод в свободной форме "

Хочется поумничать:)
Не суть важно, какие у вас источники:) Можно использовать для первого этапа модели gpt, т.к. у этих моделей есть встроенная функция строгого структурного вывода (Structured outputs) результатов в виде корректного json списка.

Можно попробовать с gpt-4o-mini это вроде самая дешёвая из их платных моделей.
https://openrouter.ai/openai/gpt-4o-mini

В принципе, gpt-oss-120b и gpt-oss-20b тоже должны поддерживать структурный вывод, т.к. это тоже OpenAI делали, и это объявлено в спецификациях, но надо тестировать, а с gpt-4o-mini гарантированно заработает.
Ссылки:
https://developers.openai.com/api/docs/models/gpt-oss-120b
https://developers.openai.com/api/docs/models/gpt-oss-20b

Вообще все модели, где в описании применения написано что-то типа writing, storytelling, role-play и тому подобное, могут поддерживать structured outputs.

vaganovelena 12 мар в 06:05

спасибо большое за наводку на gpt-oss модели, не смотрели на них пока, вроде как недавно они в доступе. Структурный вывод да, используем, у нас gpt-4o-mini как раз основная рабочая модель. Но structured outputs решают формат (чтобы вернулся валидный JSON нужной схемы), а не содержание. Fact Checker всё равно должен сверить каждую сущность с источником, глюк в идеальном JSON всё ещё глюк.

Спасибо еще раз

diffnotes-tech 12 мар в 14:20

проверяет Draft Writer, но кто проверяет Critic? Если Draft Writer естественно вписал неверный факт, Critic с теми же слепыми пятнами скорее всего пропустит. Тот же паттерн в code review субагентах - ревьюер-LLM стабильно пропускает ошибки которые сам бы допустил. Три итерации Critic -> Draft Writer улучшают стиль и структуру, но фактические ошибки проходят через все три

vaganovelena 13 мар в 10:39

Верно подмечено, и это реальное ограничение архитектуры. Но тут важно разделить роли. Критик в нашем пайплайне проверяет стиль и структуру, но не факты, из смотрит фактчекер, а он работает принципиально иначе - не оценивает текст, а делает семантический diff рерайта с исходником. На входе два текста, на выходе список расхождений- цифры, имена, должности, цитаты. Это ближе к структурному сравнению, чем к генерации. Но вообще ваш аргумент применим и к нему - он же тоже LLM со своими слепыми пятнами. Если в источнике факт неверный, он пройдёт. Если модель галлюцинирует при сравнении, это не детектируется изнутри системы. Мы так сделали, что фактчекер не последний барьер, а первый. Система снижает количество фактических ошибок до уровня, при котором ручная вычитка занимает минуты. Полную факт-проверку без участия человека мы не обещаем вообще. Про code review субагенты интересная аналогия. В нашем случае отчасти спасает то, что проверяльщик фактов не видел процесс написания рерайта: он работает с готовым текстом и источникомьбез контекста предыдущих итераций. Это ъотя бы убирает накопленный bias от итераций.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий