
Исследователи из Google Research представили ConvApparel – новый датасет и комплексный фреймворк для измерения “разрыва в реалистичности” (realism gap) LLM-симуляторов пользователей. А заодно – способ этот разрыв уменьшать.

На основе датасета авторы построили трёхстолпную систему оценки правдоподобия симуляторов.
Современные диалоговые ИИ-агенты неплохо справляются с многошаговыми задачами: задают уточняющие вопросы, помогают пользователю. Но в длинных взаимодействиях они иногда выдают несвязные ответы. Обучать их на живых людях долго, а масштабировать сложно, поэтому исследователи порой используют симуляторы пользователей – LLM, которым дают инструкцию “притворись человеком”.
Однако такие симуляторы страдают от разрыва реалистичности. Они бывают слишком терпеливыми, обладают неестественно всеохватывающими энциклопедическими знаниями в каких-либо областях или пишут абсолютно грамотно. Это как если бы авиасимулятор всегда показывал идеальную погоду.
Команда Google Research (Офер Меши, Салли Голдман и коллеги) решила проблему очевидным образом: они создали ConvApparel – датасет из более чем 4000 многошаговых диалогов (почти 15 000 реплик) в домене шопинга одежды. И применили хитрую схему с двумя агентами-помощниками:
Хороший агент – полезный, эффективный консультант с мощным поиском.
Плохой агент – специально сделанный не-helpful: он слегка искажает ключевые слова и использует деградированный поиск, чтобы бесить пользователя.
Участники не знали, к какому агенту их направили. После каждого шага диалога они ретроспективно оценивали свою удовлетворённость, фрустрацию и вероятность покупки. Так в датасете появилась покадровая ground-truth-аннотация внутреннего состояния пользователя.
Статистическое выравнивание на уровне популяции – длина диалогов, количество слов на один шаг, типы диалоговых актов (например, отклонение рекомендации).
Оценка “человечности” – обученный дискриминатор выдаёт вероятность того, что диалог похож на человеческий.
Контрфактуальная валидация – самый интересный пункт. Симулятор тренируется только на диалогах с “хорошим” агентом, а потом его заставляют общаться с “плохим”. Реалистичный симулятор должен сам адаптироваться: показать всплеск фрустрации и снижение удовлетворённости, как настоящие люди.



В экспериментах сравнили три типа симуляторов на основе семейства моделей Gemini:
Prompt-based – только высокоуровневые инструкции, без обучения на данных.
ICL (in-context learning) – с подкреплением семантически похожими примерами из ConvApparel.
SFT (supervised fine-tuning) – дообучение Gemini 2.5 Flash непосредственно на транскриптах ConvApparel.
Каждый симулятор сгенерировал по 600 диалогов (300 с хорошим агентом, 300 с плохим). Результаты оказались показательными:
Разрыв в реалистичности отлично обнаруживается. Обученный дискриминатор с высокой уверенностью определил все синтетические диалоги. Даже лучшая SFT-модель оставляет тонкие артефакты – идеальную грамматику и слишком предсказуемое чередование реплик.
Data-driven-методы побеждают в статистике. In-context learning и supervised fine-tuning значительно лучше повторяют распределение человеческого поведения (многословность, частота принятия рекомендаций). Но строгие статтесты всё равно показывают: разрыв сохраняется.
Контрфактуальная валидация. Prompt-based-симулятор почти не адаптировался к “плохому” агенту, оставаясь неестественно вежливым. А вот ICL и SFT проявили замечательную устойчивость: несмотря на то что в их обучающих данных “плохого” агента никогда не было, они реалистично сдвинули поведение – показали более высокий уровень симулируемой фрустрации и отказов от рекомендаций.
Исследователи выложили ConvApparel на Hugging Face, а полную статью можно найти в антологии ACL. Они приглашают сообщество использовать их фреймворк, чтобы строить действительно надёжных синтетических пользователей.
Делегируйте часть рутинных задач вместе с BotHub! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 300 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!
