ZeroSearch: Alibaba обучает поискового помощника с помощью AI
Исследовательская лаборатория Tongyi компании Alibaba представила ZeroSearch — новый метод обучения больших языковых моделей для решения задач поиска, не полагаясь на реальные поисковые запросы в интернете. Чтобы чат-боты могли точно отвечать на вопросы, особенно когда их встроенных знаний недостаточно, им нужно научиться находить информацию на лету. Большинство современных подходов используют обучение с подкреплением (RL) и полагаются на реальные поисковые системы, такие как Google, для обучения этому навыку. Но, по словам команды Alibaba, это дорого, сложно контролировать и плохо масштабируется.
ZeroSearch использует другой подход: вместо использования реальных веб-поисков во время обучения, он имитирует процесс поиска с помощью второй языковой модели. Эта модель генерирует короткие тексты в ответ на поисковые запросы, предоставляя либо релевантную, либо намеренно нерелевантную информацию — имитируя реальные результаты поиска, но под полным контролем исследователей.
Языковая модель Qwen-2.5, которая является основной обучаемой моделью, проходит структурированный процесс обучения. В каждом раунде она решает, нужно ли ей искать больше информации. Если да, она создает запрос и отправляет его в имитационную модель. Затем модель просматривает сгенерированные документы и отвечает, оценивая свой ответ и получая обратную связь с помощью RL. Убедиться в этом и протестировать модель вы можете, перейдя на BotHub по реферальной ссылке.
В начале обучения имитируемые результаты поиска намеренно полезны. Со временем качество постепенно снижается — подход к обучению по программе. Это помогает модели научиться делать полезные выводы даже из неясной или противоречивой информации, как при поиске в реальном интернете.
Сама имитационная модель заранее настраивается, обучаясь генерировать как «полезные», так и «бесполезные» результаты поиска. Это различие контролируется тонкими изменениями в подсказках — инструкциях, данных модели.
Тестовые запуски показывают, что модель может обрабатывать сложные многоэтапные процессы поиска. В одном примере был задан вопрос: «Кто является супругом человека, который озвучивает Медведя Смоки?». Сначала смоделированный поиск определил Сэма Эллиотта как актера озвучивания. Затем модель провела второй смоделированный поиск супруги Сэма Эллиотта, найдя Кэтрин Росс. Она правильно объединила обе части информации и выдала точный ответ.
Умение разбивать вопрос на подвопросы и строить на их основе промежуточные результаты является ключевой целью обучения ZeroSearch.
Моделирование процесса поиска не только устраняет зависимость от внешних поисковых сервисов, но и значительно сокращает расходы. В ходе экспериментов запуск 64 000 поисков через SerpAPI Google стоил около 586 долларов США в виде платы за API. Для сравнения, использование имитационной модели на четырех арендованных графических процессорах AWS A100 стоило всего 71 доллар США в виде времени вычислений.
Еще одно преимущество: симулированный поиск всегда доступен, выдает ответы в едином стиле и может быть усложнен или упрощен по мере необходимости. По словам команды, это делает обучение более предсказуемым и надежным.
Команда оценила ZeroSearch по семи известным бенчмаркам вопросов и ответов, включая Natural Questions, TriviaQA и HotpotQA. Он сравнялся или превзошел подходы, обученные с помощью реальных поисков Google, особенно при использовании большой имитационной модели с 14 миллиардами параметров.
Меньшие модели с 7 миллиардами параметров также показали хорошие результаты. Ключевым фактором был не только размер, но и то, была ли имитационная модель специально настроена для этой задачи — модели, контролируемые только подсказками, показали себя намного хуже. Alibaba опубликовала некоторые из своих моделей на HuggingFace. Более подробная информация и код доступны на GitHub.