ИИ-агенты против живых юзеров: кто лучше тестирует интерфейсы? / Habr

Представьте: вы хотите протестировать новую кнопку «Купить», но для статистически значимых выводов нужны тысячи пользователей и недели анализа. А теперь забудьте об этом. В статье «AgentA/B: Automated and Scalable Web A/BTesting with Interactive LLM Agents» авторы рассказывают, как заменить живую аудиторию автономными ИИ-пользователями на базе LLM – и получать точные A/B‑результаты за считанные часы и копейки бюджета. Давайте узнаем, как это работает.

Почему традиционное A/B-тестирование требует изменений?

A/B-тестирование — стандартный инструмент оценки изменений в интерфейсе веб-приложений. Однако у него есть ряд серьёзных недостатков:

Высокие затраты: для получения статистически значимых результатов нужен большой поток реальных пользователей, что дорого и сложно, особенно для новых или нишевых сайтов и приложений.
Длительность процесса: от планирования эксперимента до анализа результатов могут пройти недели или даже месяцы.
Ограниченность масштабирования: сложно одновременно тестировать много идей из-за инженерных и ресурсных ограничений.

Появление LLM-агентов, способных имитировать поведение пользователей, открывает возможность автоматизировать и ускорить этот процесс.

Цель исследования

Авторы ставят перед собой задачу разработать систему AgentA/B, которая:

Автоматически создаёт виртуальных пользователей (агентов) с заданными характеристиками и сценариями поведения.
Позволяет проводить масштабные A/B-тесты без необходимости привлечения большого количества реальных пользователей.
Обеспечивает автоматический анализ результатов, помогая быстро понять, какие изменения интерфейса работают лучше.

Как устроена система AgentA/B?

Архитектура системы AgentA/B

Авторы использовали комплексный подход, включающий качественные и количественные методы:

Подготовительный этап: Были проведены интервью с шестью экспертами из индустрии, чтобы понять основные проблемы традиционного A/B-тестирования и сформулировать требования к новой системе.
Создание агентов: С помощью LLM были созданы виртуальные пользователи с разными характеристиками (например, демографическими данными и уровнем цифровой грамотности).
Проведение тестов: Агенты распределялись по контрольной и экспериментальной группам. Для автоматизированного взаимодействия с веб-страницами использовались браузерные инструменты (ChromeDriver, Selenium WebDriver). Агенты выполняли задачи (например, поиск бюджетного товара на Amazon.com), а система собирала подробные логи их действий.
Анализ результатов: После тестов система автоматически анализировала поведение агентов, сравнивая показатели между группами и с данными реальных пользователей.

Как происходит взаимодействие ИИ-агента с интерфейсом?

Описание того, как в AgentA/B организован цикл взаимодействия LLM‑агента с веб‑интерфейсом

Пользователь системы задаёт две версии веб‑страницы (контрольную и экспериментальную), между которыми нужно провести A/B‑тест.
Далее работает Environment Parsing Module:
1. Запускается браузер (ChromeDriver).
2. Происходит парсинг страницы с помощью встроенного JavaScript‑скрипта - cчитываются только ключевые элементы: поисковая строка, список фильтров, товары и т. д, а также убираются шумовые элементы (баннеры, реклама, меню и т. д.).
3. Наблюдение выдается в виде json-объекта.
4. Формируется action space - перечень доступных шагов для агента.
Прогнозирование действия LLM-агента:
1. Контекст агента: Сгенерированная ранее Persona (демография, привычки, цели), текущий интент (конкретная задача, например «найти бюджетный солнечный фильтр для телескопа»), история уже совершённых действий, а также текущее состояние страницы (JSON‑наблюдение + Action Space).
2. Запрос к LLM: Работает цепочка рассуждений: агент «думает» над тем, какое действие приведёт к выполнению его цели.
3. Выход LLM - следующее действие.
В финале отрабатывает Action Execution Module: происходит разбор команды, действие выполняется в браузере, обрабатываются ошибки и обновляется состояние страницы после действия.
Новая итерация цикла. После успешного или неудачного выполнения действия управление возвращается к Environment Parsing Module, чтобы заново получить JSON‑снимок текущего состояния страницы. Затем процесс повторяется:Парсинг → Предсказание действия → Выполнение → Парсинг → …
Цикл продолжается до тех пор, пока агент:
- Успешно завершит задачу (достижение цели, команда terminate),
- Не превысит лимит шагов/времени,
- Или не застрянет (многократные неудачи в выполнении действий).

В итоге такой модульный и замкнутый цикл позволяет автоматически и в масштабе запускать сотни–тысячи симуляций, при этом гарантировать, что агент всегда «видит» актуальное состояние страницы и плавно обрабатывать непредсказуемые элементы реальных веб‑интерфейсов.

Сценарий A/B‑теста на Amazon.com: сравнение полноты фильтров

Два варианта дизайна левой панели фильтров на amazon для A/B-тестирования

Цель: Оценить, как количество и релевантность опций в боковой панели фильтров влияет на поведение “покупателей” (реальных и виртуальных).

Условия: Полный список фильтров (все доступные опции показаны пользователю) и сокращённый список фильтров (оставлены только фильтры, схожие с поисковым запросом на ≥ 80%).

Метод:

Сгенерировать 100 000 персонализированных LLM -агентов, выбрать случайные 1 000 (500 для полного списка фильтров, 500 для сокращённого).
Каждому агенту задаётся цель покупки (например, «найти недорогую умную колонку до $40 с высоким рейтингом»).
Автоматизированная сессия с лимитом в 20 действий: поиск → клики по товарам → применение фильтров → покупка/стоп.
Логирование каждой сессии: последовательность действий, длительность, результат.
Синхронный A/B‑тест с реальными пользователями (N=1 000 000) по тем же условиям.

Ключевые метрики:

Количество действий за сессию (Search, Click_product, Click_filter_option, Purchase, Stop).
Конверсия (Purchase rate).
Средняя сумма покупки.
Статистические тесты (t-test для средних, χ² для количества покупок).

Что показали результаты?

Реальные пользователи в контрольной группе и ИИ‑агенты в контрольной и экспериментальной группах. Агентам в экспериментальной группе удалось совершить статистически значимо больше покупок, чем в контрольной

Сходство с поведением реальных пользователей: LLM-агенты демонстрировали поведение, близкое к человеческому. Хотя агенты действовали более целенаправленно и менее склонны были к случайным исследованиям, ключевые метрики (например, частота покупок и использование фильтров) были сопоставимы с реальными.
Разница между тестируемыми интерфейсами: В экспериментальной группе агенты чаще кликали по товарам и демонстрировали более целенаправленное поведение.
Была выявлена статистически значимая разница по количеству покупок между контрольной и экспериментальной группами, что совпало с результатами параллельных исследований с реальными пользователями.
По некоторым метрикам различия были менее выраженными, что говорит о необходимости увеличения выборки для более точных выводов.

Преимущества подхода

Система AgentA/B позволяет быстро и недорого получать предварительную обратную связь по изменениям интерфейса, не привлекая реальных пользователей. Это существенно снижает затраты и ускоряет процесс тестирования. Такое решение подойдет стартапам с нулевым трафиком, крупным командам UX‑дизайнеров и всем, кто ценит скорость и экономию.

Однако упрощённость модели поведения агентов, не учитывающей эмоции и случайные факторы человеческого поведения. Необходимо дальше работать над более глубокой персонализацией агентов для более точного воспроизведения человеческих паттернов поведения, возможно использование больших поведенческих (LBM) и популяционных моделей (LPM).

***

Если вам интересна тема ИИ, подписывайтесь на мой Telegram-канал — там я регулярно делюсь инсайтами по внедрению ИИ в бизнес, запуску ИИ-стартапов и объясняю, как работают все эти ИИ-чудеса.

ИИ-агенты против живых юзеров: кто лучше тестирует интерфейсы?

Сценарий A/B‑теста на Amazon.com: сравнение полноты фильтров

{{ titleHtml }}

{{ titleHtml }}