doctorclo Jul 30 2019 at 18:25

Активное обучение ранжированию

6 min

11K

VK corporate blogSearch engines*Algorithms*Big Data*Machine learning*

+43

Comments 7

Sergey_Kovalenko Jul 31 2019 at 10:52

Интересная задачка, я бы с удовольствием над ней подумал в свободное время, благодарю за подробное погружение в проблематику.
А как Вы справляетесь с такой проблемой: пусть имеется четыре типа киноманов, кто-то любит боевики и, немного — советские мультфильмы, кто-то — научную фантастику и, немного — советские мультфильмы, кому-то больше остального нравятся драмы и, немного — советские мультфильмы, мой друг любит фильмы про зомби и, немного — советские мультфильмы. Не получится ли так, что на запрос: «чего бы хорошего посмотреть сегодня в кино» им всем будет рекомендован утренний сеанс показа советских мультфильмов?

doctorclo Jul 31 2019 at 12:19

Я здесь особой проблемы не вижу, если я правильно понял Ваш вопрос.
Если у Вас есть признак «сильная любовь данного пользователя к боевикам», есть собранный датасет, где люди, у которых есть этот признак, выбирали сеансы с боевиками, то модель легко выучит такое взаимодействие. Тогда новым людям с таким признаком модель будет показывать боевики.
Если же у Вас люди в признаковом пространстве никак не разделяются, и есть только признак «сильная любовь всех пользователей к данному жанру», то тогда будет показываться, что в среднем любят пользователи. В этом случае советские мультфильмы, да.

Sergey_Kovalenko Jul 31 2019 at 13:25

Мне кажется, вероятнее последнее, поэтому решение в лоб ранжировать выдачу по популярности — вообще говоря, «так себе» идея. Я, как пользователь, предпочел бы видеть на станице драмы, боевики, научную фантастику и даже готов терпеть выдачу фильмов про мертвяков, но «Пятачок» по первой ссылке — да, Вы смеетесь.

doctorclo Jul 31 2019 at 13:53

Да, это проблема персонализации в ранжировании. Она сейчас стоит довольно остро, просто поднимать страницы со словами из поискового запроса все более менее научились, а вот делать ранжирование персональным под человека уже сложнее.

Sergey_Kovalenko Jul 31 2019 at 13:59

Ответьте, пожалуйста еще на такой вопрос:
На одной из пресс-конференций инженеры гугла открыли секрет, что 30% всех поисковых запросов вводились лишь раз за всю историю работы сервиса. Как в мейл.ру учатся обрабатывать этот «хвост»?

doctorclo Jul 31 2019 at 14:07

В этом хвосте, очевидно, нет никакой поведенческой информации, мы совершенно не знаем, в какие документы пользователи переходят по этим запросам.
В таком случае могут помочь умные текстовые факторы, которые позволят не только находить общие слова между запросом и веб-страницей, но и общую семантику. Для этого активно применяются "'эти самые нейронные сети". Об этом скоро будут следующие публикации, ждите :)

Sergey_Kovalenko Jul 31 2019 at 14:20

Спасибо за ответ, будет интересно почитать.