«Яндекс» усовершенствовал поиск с помощью нейросети CS YATI — новой модели, обученной на документах для IT-специалистов и оценках экспертов по программированию. Поисковая выдача для разработчиков и ML-специалистов стала качественнее, а навигация по запросам — удобнее.
Новая модель учитывает в 1,5 раза больше информации со страницы, чем её предыдущая версия — YATI. Обновлённая нейросеть-трансформер проанализировала множество поисковых запросов и сайтов, показывающихся по запросам, связанным с программированием. Это помогает ей лучше оценивать качество и релевантность документа запросу. Пропустив через себя терабайты документов о программировании и историю поиска экспертов, CS YATI также научилась предсказывать клики квалифицированных программистов, чтобы выдать наиболее релевантный ответ.
«Яндекс» доработал обогащённый ответ Stack Overflow. Прямо в результатах поиска, без перехода на сайт, пользователь увидит дополнительную информацию: сам вопрос, лучший ответ на него и другие комментарии, которые могут пригодиться программистам. Также было улучшено отображение сниппетов для GitHub и NPM: в них появилась дополнительная полезная информация.
«Известно, что львиная доля программистских запросов — это запросы на английском языке. CS YATI обучалась в основном на англоязычных источниках. Мы не просто усовершенствовали поиск для программистов: в процессе мы ещё и улучшили поиск по англоязычным источникам», — рассказал Алексей Гусаков, руководитель управления машинного интеллекта и исследований.
В 2020 году Яндекс запустил технологию анализа текста на основе нейросетей-трансформеров, решающие задачи в области обработки естественного языка, но требующие огромного количества вычислительных ресурсов. Благодаря этой технологии «Яндекс» стал лучше оценивать смысловую связь между запросами и содержанием документов в интернете — настолько, что этот запуск можно считать крупнейшим событием в поиске за последние десять лет. Эта технология получила название YATI.
Подробности про CS YATI можно прочитать в блоге «Яндекса» на Хабре.