Как ИИ-агенты учатся работать в браузере, и почему это может перевернуть будущее веба / Habr

Большинство современных веб-агентов решают задачи через длинный конвейер: спарсить страницу, сжать её до текста, передать LLM. Это удобно, но не богато на действия: нет настоящего скролла, кликов, работы с вкладками и формами. К тому же растёт стоимость из-за множества внешних вызовов. Команда BrowserAgent предлагает вернуться к первоисточнику — действовать прямо в браузере, как человек. Это открывает дверь к более глубокому исследованию страниц и лучшему многошаговому мышлению.

Сравнение BrowserAgent с традиционным конвейером глубокого исследования.

Что именно предложили авторы

BrowserAgent — это агент, который видит живую страницу и управляет ею через Playwright простым набором атомарных действий: клик, скролл, ввод, переход по URL, управление вкладками и остановка с ответом. Никаких отдельный парсеров и суммаризаторов — модель учится “читать” доступное представление страницы и принимать решения на лету. Внутри — цикл думать–резюмировать–действовать: на каждом шаге агент делает выводы и кладёт их в явную память, чтобы не терять важные факты через несколько экранов.

Как это работает под капотом

Главный инженерный барьер — скорость браузерной среды. Обычно получается 1–2 эпизода в минуту, что дорого для сбора данных. Авторы строят оркестрацию на Ray и запускают десятки параллельных экземпляров Playwright на одном 32‑ядерном сервере. В итоге — 50+ эпизодов в минуту и более чем десятикратное удешевление сбора. Сессии пишутся детально: промт, наблюдение страницы, рассуждение, действие и ключевые промежуточные выводы в память. Инфраструктуру оборачивает единый интерфейс на FastAPI. Википедия поднята локально через Kiwix, чтобы обеспечить стабильность и воспроизводимость.

Откуда берутся данные для обучения

Авторы собирают 5.3K качественных сценария на базовых и мультихоповых вопросах: NQ и HotpotQA. Для простых случаев ограничение — до 6 шагов, для сложных — до 30. Данные богаты контекстом: на каждом шаге есть и наблюдение, и рассуждение, и то, что попало в память. Такой формат помогает модели научиться аккуратно двигаться по страницам и интегрировать факты через несколько переходов.

Обучение без тяжёлого RL

Схема простая и практичная: сначала Supervised Fine-Tuning, затем Rejection Fine-Tuning. Базовая модель — Qwen2.5‑7B‑Instruct. На первом этапе SFT модель учат формату ответа и базовой стратегии. На втором этапе RFT отбирают сценарии, где среди нескольких сэмплов есть и неверные, и верные ответы, а из верных берут те, где рассуждение глубже. Добавляют долю исходных SFT‑примеров, чтобы не потерять дисциплину в формате. Итог — усиление рассуждения без сложного RL и без огромных наборов данных.

Что показали эксперименты

Тестирование идёт на шести наборах: NQ, PopQA, HotpotQA, 2WikiMultiHopQA, Musique, Bamboogle. Метрики — и привычный EM, и LLM‑оценка: ответ считается валидным, если минимум две из трёх моделей-судей (GPT‑4.1, Gemini Flash 2.5, Claude Sonnet 3.7) согласны, что он корректен. Это важно: формулировки часто расходятся с идеалом, но по смыслу верны.

Основные выводы:

BrowserAgent‑7B даёт около 20% выигрыша относительно Search‑R1 при меньшем объёме обучения. Прямое взаимодействие с вебом и память оказываются критичны.
Больше доступных шагов — выше точность: средняя EM растёт с ~0.34 при лимите 6 шагов до ~0.41 при лимите 30. Агенту просто нужно время пройти цепочку страниц.
На наборах вроде TriviaQA заметен разрыв между EM и LLM‑оценкой: модель часто даёт верный ответ в другой формулировке. Кейсы из приложения показывают, что смысл совпадает, хотя строка — нет.
Производительность среды — отдельная победа: 50+ эпизодов/мин против типичных 1–2.

Несколько иллюстративных примеров

Вопрос про «принцев в Тауэре»: агент открывает соответствующую страницу, вычленяет отца и отвечает King Edward IV. По смыслу верно, хотя строка в эталоне — Edward IV of England.
Вопрос про группы Skin Yard и Ostava: первая из США, вторая из Болгарии. Агент последовательно проверяет обе страницы и возвращает итог, эквивалентный «нет».

Почему это важно

BrowserAgent показывает, что LLM может осваивать поведение пользователя в браузере без громоздкого RL и дорогостоящих конвейеров. Человекоподобные атомарные действия плюс явная память дают гибкость в реальных задачах: формы, логины, бесконечные ленты, переходы между вкладками. Это шаг к агентам, которые не только читают, но и действуют.

Среда всё ещё тяжелее чистого текста, а EM страдает от вариативности формулировок. Нужны лучшие проверяющие метрики и более богатые источники за пределами Википедии. Также полезны открытые веса и воспроизводимые окружения для сообщества. Но направление выглядит многообещающе: простая учебная схема, масштабируемая инфраструктура и заметный прирост на сложных задачах.

📜 Полная статья

***

Если вам интересна тема ИИ, подписывайтесь на мой Telegram‑канал — там я регулярно делюсь инсайтами по внедрению ИИ в бизнес, запуску ИИ-стартапов и объясняю, как работают все эти ИИ-чудеса.