… поисковые запросы можно оценивать/классифицировать по разным параметрам: геозависимые/геонезависимые, коммерческие/некоммерческие, одно- двух- трёх-словные и т.п. Очевидно, что самого пристального внимания заслуживают параметры популярности/частотности и конкурентности...
Как по мне, так самого пристального внимания заслуживает именно классификация «коммерческие/некоммерческие» и с ней ой как всё не просто.
Вот вы отсылаете читателей к докладу Яндекса Fresh BrowseRank, который должен всех убедить, что переходы по ссылкам «учитываются». Ок, смотрим доклад и видим, что данные о переходах собираются с тулбара (в современных реалиях наверное еще и с собственного браузера). Кроме этого видим, что: «The score of a page by our algorithm equals to the weight in a stationary distribution of a exible random walk, which is controlled by recency-sensitive weights of vertices and edges.», т.е. очевидно, что учитывается история серфинга. На выходе имеем, что владея данными об истории серфинга можно легко узнать посещал ли серфер сайты pflink.ru, userator.ru и т.п., если посещал, то зачем учитывать такие переходы?
Андрей Калинин на КиберМаркетинге'14 говорил, что данные из Рейтинга используются в ПоискеMail.ru, можете хотя бы в общих чертах рассказать как именно?
Тогда если можно еще один вопрос. Возьмем поисковый запрос «телевизор», по нему в результатах поиска подсвечиваются «купить» и «смотреть онлайн», т.е. это различные намерения пользователя. Вы пишите, что акронимы учитываются при ранжировании документов:
У акронимов, особенно 2-3 буквенных — больше всего вариантов расшифровок. Чем больше неоднозначность акронима, тем меньший вес мы даём ему при ранжировании.
А как обстоят дела со словами, которых нет в запросе пользователя, но которые выражают возможные намерения? Имеются ввиду те слова, которые выделяются в сниппетах, в данном примере это «купить» и «смотреть онлайн». Использование этих слов в тексте документа оказывает влияние на его релевантность запросу? Если да, то может возникнуть интересный курьез. Все тот же запрос «телевизор» в результатах поиска есть страница интернет-магазина на которой пользователю предлагают совершить покупку (потребность «купить»), если добавить на эту же страницу слова «смотреть», «посмотреть», «онлайн», то получится, что данный документ с точки зрения текстовой релевантности начинает отвечать сразу 2 потребностям (просмотр онлайн и покупка), хотя на деле это может быть совсем не так. Учитывается ли данный момент?
Мы стараемся подсвечивать в сниппетах не только слова запроса, но и все используемые синонимы, что помогает пользователю понять, почему он видит тот или иной документ.
Часто кроме синонимов выделяются дополнительные слова, например для «вечерний макияж» это «самостоятельно», «фото» — как выбираются такие слова?
Ранжирование осуществляется автоматически по всем запросам, или по некоторым все же существует «отредактированная вручную» выдача? В первую очередь конечно интересуют высокочастотные коммерческие и политические запросы.
Возврат к повторному поиску — это конечно замечательный показатель, но вот как быть с теми пользователями, которые в выдаче открывают сразу несколько сайтов (штук 5-7, в фоновых вкладках), а затем последовательно прощелкивают каждую из них? Каким образом можно интерпретировать их действия?
Как по мне, так самого пристального внимания заслуживает именно классификация «коммерческие/некоммерческие» и с ней ой как всё не просто.
Можете парочку таких примеров показать?
А как обстоят дела со словами, которых нет в запросе пользователя, но которые выражают возможные намерения? Имеются ввиду те слова, которые выделяются в сниппетах, в данном примере это «купить» и «смотреть онлайн». Использование этих слов в тексте документа оказывает влияние на его релевантность запросу? Если да, то может возникнуть интересный курьез. Все тот же запрос «телевизор» в результатах поиска есть страница интернет-магазина на которой пользователю предлагают совершить покупку (потребность «купить»), если добавить на эту же страницу слова «смотреть», «посмотреть», «онлайн», то получится, что данный документ с точки зрения текстовой релевантности начинает отвечать сразу 2 потребностям (просмотр онлайн и покупка), хотя на деле это может быть совсем не так. Учитывается ли данный момент?
Часто кроме синонимов выделяются дополнительные слова, например для «вечерний макияж» это «самостоятельно», «фото» — как выбираются такие слова?
В тоже время Google наоборот, с «аудиоплеер wordpress» на «аудио плеер wordpress» перекидывал: