Los_Pochtovyi23 янв 2014 в 14:16

Как работают «нессылочные» факторы ранжирования Яндекса — попытка анализа

5 мин

14K

Поисковые технологии *

Из песочницы

Комментарии 26

edogs 23 янв 2014 в 14:56

Точно так же в запросе «ядовитая железа» в Яндексе лидирует энциклопедия по WoW, а вовсе не справочники по биологии!

Что Вас навело на мысль использовать такой запрос в качестве примера?
Из 30 результатов в яндексе… первый (он же единственный из этих 30) действительно относится к wow, но запрос-то некоммерческий, а wow-стов скорее всего больше чем биологов. Что подтверждается тем, что в гугле ситуация аналогичная, на первом месте wow, и только потом биология.

Los_Pochtovyi 23 янв 2014 в 15:01

От балды забил, честно говоря.

wow-стов скорее всего больше чем биологов.

Именно это, похоже, и влияет. Судя по директу (по крайней мере, тогда), запросы по вов с этими словами не настолько часты, как «неопределенные». То бишь популярность тематики серьезно бьет по всем остальным факторам.

father_gorry 23 янв 2014 в 15:30

Вы же сами пишете, что искали анонимно. ЕМНИП, осенью Яндекс хвастался, что научился с высокой достоверностью определять интересы каждого пользователя. Правда, народ тогда вывел, что означенная достоверность не превышает 40%, но я все равно склонен интерпретировать ваши наблюдения как подтверждение того, что авторы поисковика всё больше уповают на свои методы определения персонального контекста посетителя. Именно поэтому анонимная выдача идет с открытым контекстом.

Los_Pochtovyi 23 янв 2014 в 15:44

Возможно, конечно…

Хотя, в принципе, моя выдача без анонимности не слишком отличается — ну, что-то меняется позициями, но общая корреляция «поиски со словом/тематики в выдаче» — примерно та же. Притом, по идее, в «остеклении» она у меня должна быть испорчена интересами (по лоджиям я особо не хожу, а вот фасадным остеклением интересуюсь), но по выдаче это как-то незаметно.

С другой стороны, опыт одного меня тут не показателен.

imater 23 янв 2014 в 15:46

Мне кажется, поисковики могли бы учитывать тот факт, что если человек нашёл то, что ему нужно, то он больше не кликает другие ссылки, тогда этот элемент можно ранжировать повыше. Тогда ссылки которые быстро открываются и сразу закрываются — можно будет выкидывать из поиска вниз.

Los_Pochtovyi 23 янв 2014 в 15:53

Кажется, кто-то такое пробовал. Сейчас не вспомню, может, даже и Яндекс.

ИМХО очень неоднозначное решение. Скажем, для заказа пиццы такой алгоритм неплох. Но… Например, в строительстве клиент обычно открывает первые десять-пятнадцать страниц подряд, смотрит ровно одну страницу на каждом сайте, обзванивает всех понравившихся, рассылает чертежи и ждет самого выгодного предложения.

Соответственно, во втором случае последний просмотренный сайт ничего не значит — клиент, возможно, даже туда не позвонил.

utkorose 23 янв 2014 в 15:54

Множество раз натыкался на утверждение, что Яндекс так и делает. Поведенческие факторы. Люди возвращаются в поисковую выдачу? Понижаем сайт в выдаче на запрос. Не возвращаются? Ставим ему плюс. Забейте в поиск «поведенческие факторы ранжирования»

Los_Pochtovyi 23 янв 2014 в 15:58

Точно! Яндекс, ПФ. Правда, сколько «весит» этот фактор у них — большой вопрос.

aplic 23 янв 2014 в 16:36

У меня есть гипотеза о невозможности построения простых гипотез в отношении поисковой выдачи :)
Выдача последнее время несистематична. То есть она конечно систематична, но на таком уровне сложности, что делать предположения о выдаче стало невозможно. Она подстраивается под поведение пользователей, которое зависит от неизвестных нам факторов. И подстраивается настолько, что становится настолько же сложной и даже сложнее, потому что собирает и накапливает статистику. И выдача на два рядом стоящих почти одинаковых запроса может отличаться совершенно непонятным и неожиданным образом.
Как следствие перестали работать режект-слова в поисковом запросе. Как не добавляй, характер выдачи этим не меняется.
И плюс еще вы делаете предположения об алгоритмах выдачи в тот момент, когда она меняется. Даже если бы и были закономерности, в переходной период они не действуют.

Los_Pochtovyi 23 янв 2014 в 17:07

Простых, конечно, нет=) Но определенные закономерности проследить возможно. Немножко поэкспериментировал — есть система (я сейчас не о том, что в посте, а о том, о чем еще рано говорить). Которой, правда, как пользоваться — неясно.

Насчет поведения пользователей, кстати — большой вопрос. Я пока на своих сайтах четкой зависимости от ПФ не вижу. Зато возраст сайта, например, влияет — это да, это видно.

Что же до постоянных изменений в переходный период… Изменения эти, как мне представляется, растут из одного корня, следуют друг из друга. То есть абсолютно новых факторов, скорей всего, не вводится — модифицируются старые.

keslo 23 янв 2014 в 20:31

Плюсы:

С точки зрения владельца:
Часть аудитории, проходившая мимо из-за неточного запроса, придет к нему.

Неоднозначно. Но если нет ссылок, то, скорее всего, присутствует долей анализ поведенческих факторов. А если из-за неточных нецелевых запросов будут закходить на сайт владельца, то доля отказов увеличиться. Что скорее всего отрицательно повлияет на общее ранжирование в серпе.

С точки зрения пользователя:
Неполный или неоднозначный запрос имеет неплохой шанс дать нужную инфу

… в противном случае мухи с котлетами в выдаче будут раздражать пользователей и занимать ценное место в выдаче.

Тут (вспомнив содержания Букваря из детства) забил в Яшу запрос «лук». Итого по местам:
1. Wiki лук репчатый
2. продажа луков
3. продажа луков
4. лук репчатый
5. лук репчатый
6. лук репчатый
7. продажа луков
8. лук репчатый
9. лук как сделать самому
10. Wiki лук (оружие)

Итого: 2 wiki, 3 продажных, 5 инфа.

Удивило две строки выдачи с разных страниц с Википедии. Типа «Яндекс не понял, что ты имела ввиду» :-)

Получается из 10 позиций выдачи всего 2 коммерческих строки.

Интересно, что при запросе «купить лук» выдаются все! строки с продажей оружия и его муляжей. Репчатого нет и в помине там. Додумка Яндекса, что я именно хочу купить лук-оружие. И без вариантов :-)

ashuha 23 янв 2014 в 21:31

Думаю вы частично правы. Но тут мир машинного обучения. Если предположить, что ранжираванием занимается подобие матрикснета, то вы готовы угадать еще пару тысяч фич?

Каке я вижу тонкие моменты.

1) возможно результат уточняется исходя из классификации на точные и не точные запросы
2) Яндекс знает все о вас, интересы, пол, доход, и пр. И это учитывая то, что явно вы ничего не рассказываете. Те достаточно вашей куки, ак не обязаелен.

Los_Pochtovyi 24 янв 2014 в 05:40

Ну, во-первых, это интересно. Кстати, слышал, что фич не пара тысяч, а всего восемьсот=)

Во-вторых, с точки зрения полезности достаточно угадать несколько критичных фич (например, если догадка в статье верная, следует подбирать вординг на сайте под «точные» запросы, а не под расплывчатые вроде «ремонта остекления»)

Насчет тонких моментов согласен с одной оговоркой — надо давать скидку на тупость системы и недостаток данных. Например, с одной машины из-под одного юзера заходят в сеть несколько человек — так бывает, и нередко (не говоря уже о том, что, скажем, по работе и по жизни человек может интересоваться совсем разными вещами или искать информацию для кого-то). Уже у Яндекса картинка смазанная. А если добавить неизбежные ошибки алгоритмов — получается, что портрет у него не мой или ваш, а непонятно чей.

ashuha 24 янв 2014 в 07:50

Насчет количества фич, вероятно вы правы +) мы можем только угадывать

Интересно то интересно, но как я понимаю, в матрикснете нету пятити шести определяющих фич, как в других алгоритмах, точнее они есть но их больше, и неисключенной что фичи из сырых данных выбираются автоматический, и день ото дня немного меняются.

Есть предположение, что если домашние и рабочие интересы не пересекаются, то и запросы по ним не пересекаются. Поэтому это не сильно влияет на поисковую выдачу.

А выход с одного компьютера нескольких людей в сеть… Тут две мысли
1) Сейчас у каждого пятиклассника свой компьютер =) Те возможно шум не сильный
2) Возможно рассмотрен случай семейного компьютера?

Los_Pochtovyi 24 янв 2014 в 08:33

Насколько я понимаю, постоянное изменение фич происходит. Однако есть подозрение, что автоматические «колебания» параметров происходят в заранее заданных пределах. И общий алгоритм создает не матрикснет, а люди.

То есть, образно говоря — есть уравнение. Его написали сотрудники Яши. Множители отдельных переменных изменяются в зависимости от матрикснета в заданных диапазонах.

Почему мне так кажется?

1) Если бы не было «рамок», выдача бы менялась куда более значительно, а в известных мне выдачах в первой тридцатке годами ротируются одни и те же сайты;

2) Эти рамки жестко заданы и не слишком широки, так как можно было наблюдать следующее: наравне с seo-монстрами и «авторитетными» источниками в первых десятках по среднечастотникам тоже годами болтались сайты без «имени» и с 30-40 ссылками на них. А это было во времена, когда ссылки значили всё. Следовательно, если исключить вероятность подкупа, они держались за счет нессылочных факторов, которые оставались сильны на протяжении долгого периода времени (несмотря на изменение их веса «автоматом»).

Примерно так.

Ну, домашние и рабочие интересы могут пересечься у многих. Самое простое — я вот сейчас сотрудничаю с магазином женской одежды. Посему вынужден торчать на соответствующих ресурсах етс. В результате и Яндекс, и Гугл, похоже решили, что я барышня, судя по выдаче. Или вообще не пойми кто;)

А с компами… Ну, довольно часто дома сталкиваюсь с ситуацией, когда быстрее посмотреть что-то на включенном компе в той же комнате, чем идти и включать свой. Впрочем, такой случай действительно может быть рассмотрен. Вопрос только, насколько правильно это считается.

Vaes 24 янв 2014 в 10:42

1) Матрикснет работает каждый день.
2) Для каждой тематики свои «законы» ранжирования.

Эта информация в открытых источниках в блогах Яндекса.

utkorose 25 янв 2014 в 12:33

дополните ссылками, пожалуйста

хотя
company.yandex.ru/technologies/matrixnet/index.xml
и вот вообще
company.yandex.ru/technologies/search/

Vaes 24 янв 2014 в 07:03

Причем здесь отмена ссылочного? То, что вы описали и обсуждаете похоже на технологию «Спектр», которую Яндекс запустил в 2012 году http://company.yandex.ru/technologies/spectrum/index.xml

Los_Pochtovyi 24 янв 2014 в 07:11

О как оно выходит! Значит, не нашел, когда проверял результаты. Спасибо за инфу. Видимо, «Спектру» подняли вес.

А относится это к отмене ссылочного так: до сего момента приколы этого «Спектра» нивелировались реальным человеческим словоупотреблением в ссылках, которое подтягивало выдачу к реальному состоянию дел. Сейчас, когда ссылочное, если верить некоторым, потихоньку ослабляется, а все остальное усиливается, мы со «Спектром» остаемся один на один. Что не есть здорово по указанным в статье причинам.

Avdenago 24 янв 2014 в 10:13

Включить режим занудства.

Не понимаю, почему заголовок звучит громко «Как работают «нессылочные» факторы ранжирования Яндекса», а по факту в статье всего гипотеза об одном факторе. Тем более совершенно не факт, что именно он и является этим «нессылочным» фактором.

Но за гипотезу спасибо.

wmas 24 янв 2014 в 20:52

Правильно ли я понял: выдача по незавершенным высокочастотникам в яндекс теперь подправляется за счёт популярных низкочистотников?

Los_Pochtovyi 25 янв 2014 в 02:55

Ага, судя по всему.

Jazzina 25 янв 2014 в 17:41

Спасибо за исследование. Но мне кажется, стоит искать часть разгадки в таком параметре, как глубина просмотра/время на сайте, которое доступно ПС для большинства сайтов через Я.Метрику.
Как проверить? Скорее всего стоит посмотреть статистику по разным сайтам за, например Ноябрь и сравнить ее с Январем: количество переходов* (можно проверять позиции по вебмастеру, но мне кажется, количество переходов даст более адекватную картину) по запросу с той же глубиной просмотров/временем на сайте.
Примечания:
* стоит смотреть несезонные запросы, иначе получим кашу.

pikok 28 янв 2014 в 14:39

Когда-то наблюдали интересную ситуацию в Яндексе по запросу «немецкие полки». Спустя почти 2 года, просмотрев выдачу можно обнаружить, что по-прежнему 8 из 10 результатов в топ-10 — это страницы с военной тематикой, и только лишь 2 результата — коммерческие (интернет-магазины мебели). Хотя в выдаче яндекс-картинок показана преимущественно мебель. Так что по неоднозначным запросам Яндекс всегда подмешивал результаты, пытаясь понять, что именно хочет получить пользователь.

aplic 29 янв 2014 в 05:35

Я вообще не понимаю всех эти «подмешивает». Что значит подмешивает? Есть такой принцип в формировании выдачи, это разнообразие выдачи. Выдача не должна быть все элементы в одном кластере, обязательно нужно в выдачу поместить элементы из нескольких кластеров. Даже если запрос однозначен, выдача должна быть неоднородна в пределах страницы или хотя бы двух-трех. Это общий базовый принип всех поисков, это не «подмешивает». Зачем это нужно? Потому что угадать что же ищет пользователь в общем случае нельзя. И создавая неоднородную в разрезе кластеров выдачу мы повышаем вероятность для пользователя в выдаче найти что-то близкое к тому, что он искал. Может быть вы этот механизм пытаетесь увидеть в выдаче?

nokimaro 30 янв 2014 в 16:11

Согласен с вашим комментарием. Так как нет такого понятия как «релевантный поиск» точнее это понятие, относительное, и зависит от ситуации и многих других факторов, и то что релевантно для одних людей, не будет релевантным для других. Поисковики конечно пытаются совершенствовать алгоритмы ранжирования, но для «анонимных» запросов ранжирование будет по принципу «то что ищет большинство», либо персонализированная выдача когда имеются данные по вашим интересам, предыдущая история запросов и тд.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий