Comments 7
Интересная задачка, я бы с удовольствием над ней подумал в свободное время, благодарю за подробное погружение в проблематику.
А как Вы справляетесь с такой проблемой: пусть имеется четыре типа киноманов, кто-то любит боевики и, немного — советские мультфильмы, кто-то — научную фантастику и, немного — советские мультфильмы, кому-то больше остального нравятся драмы и, немного — советские мультфильмы, мой друг любит фильмы про зомби и, немного — советские мультфильмы. Не получится ли так, что на запрос: «чего бы хорошего посмотреть сегодня в кино» им всем будет рекомендован утренний сеанс показа советских мультфильмов?
А как Вы справляетесь с такой проблемой: пусть имеется четыре типа киноманов, кто-то любит боевики и, немного — советские мультфильмы, кто-то — научную фантастику и, немного — советские мультфильмы, кому-то больше остального нравятся драмы и, немного — советские мультфильмы, мой друг любит фильмы про зомби и, немного — советские мультфильмы. Не получится ли так, что на запрос: «чего бы хорошего посмотреть сегодня в кино» им всем будет рекомендован утренний сеанс показа советских мультфильмов?
Я здесь особой проблемы не вижу, если я правильно понял Ваш вопрос.
Если у Вас есть признак «сильная любовь данного пользователя к боевикам», есть собранный датасет, где люди, у которых есть этот признак, выбирали сеансы с боевиками, то модель легко выучит такое взаимодействие. Тогда новым людям с таким признаком модель будет показывать боевики.
Если же у Вас люди в признаковом пространстве никак не разделяются, и есть только признак «сильная любовь всех пользователей к данному жанру», то тогда будет показываться, что в среднем любят пользователи. В этом случае советские мультфильмы, да.
Если у Вас есть признак «сильная любовь данного пользователя к боевикам», есть собранный датасет, где люди, у которых есть этот признак, выбирали сеансы с боевиками, то модель легко выучит такое взаимодействие. Тогда новым людям с таким признаком модель будет показывать боевики.
Если же у Вас люди в признаковом пространстве никак не разделяются, и есть только признак «сильная любовь всех пользователей к данному жанру», то тогда будет показываться, что в среднем любят пользователи. В этом случае советские мультфильмы, да.
Мне кажется, вероятнее последнее, поэтому решение в лоб ранжировать выдачу по популярности — вообще говоря, «так себе» идея. Я, как пользователь, предпочел бы видеть на станице драмы, боевики, научную фантастику и даже готов терпеть выдачу фильмов про мертвяков, но «Пятачок» по первой ссылке — да, Вы смеетесь.
Да, это проблема персонализации в ранжировании. Она сейчас стоит довольно остро, просто поднимать страницы со словами из поискового запроса все более менее научились, а вот делать ранжирование персональным под человека уже сложнее.
Ответьте, пожалуйста еще на такой вопрос:
На одной из пресс-конференций инженеры гугла открыли секрет, что 30% всех поисковых запросов вводились лишь раз за всю историю работы сервиса. Как в мейл.ру учатся обрабатывать этот «хвост»?
На одной из пресс-конференций инженеры гугла открыли секрет, что 30% всех поисковых запросов вводились лишь раз за всю историю работы сервиса. Как в мейл.ру учатся обрабатывать этот «хвост»?
В этом хвосте, очевидно, нет никакой поведенческой информации, мы совершенно не знаем, в какие документы пользователи переходят по этим запросам.
В таком случае могут помочь умные текстовые факторы, которые позволят не только находить общие слова между запросом и веб-страницей, но и общую семантику. Для этого активно применяются "'эти самые нейронные сети". Об этом скоро будут следующие публикации, ждите :)
В таком случае могут помочь умные текстовые факторы, которые позволят не только находить общие слова между запросом и веб-страницей, но и общую семантику. Для этого активно применяются "'эти самые нейронные сети". Об этом скоро будут следующие публикации, ждите :)
Sign up to leave a comment.
Активное обучение ранжированию