ashagraev Jun 1 2017 at 11:29

Сколько технологий нужно Яндексу, чтобы поиск находил свежие документы почти моментально

10 min

24K

Яндекс corporate blogSearch engines*Machine learning*

+60

Comments 20

lash05 Jun 1 2017 at 12:48

Не надо путать поисковую выдачу и агрегаторы новостей, это будет стратегической ошибкой яндекса.

+10

SaturnTeam Jun 1 2017 at 14:05

Или нужно очень-очень аккуратно догадываться из запроса, новость ищут или нет

ashagraev Jun 1 2017 at 14:57

Мне, как бывшему разработчику Яндекс.Новостей, очень хорошо знакома эта дихотомия :) С точки зрения пользователя разница достаточно прозрачна: агрегатор работает в «беззапросной» схеме, тогда как Поиск отвечает на конкретный пользовательский запрос. При этом поисковая система всё равно должна удовлетворять всем тем же требованиям, что и страница новостного агрегатора: информация должна быть актуальной, источники должны быть авторитетными, а представление — понятным для пользователя.

lash05 Jun 1 2017 at 17:17

информация должна быть актуальной, источники должны быть авторитетными, а представление — понятным для пользователя

— эти требования плохо совместимы между собой, продвижение в одном обозначает отступление в другом.
Известно, что самый надежный способ завалить проект автоматизации — это идти навстречу всем пожеланиям клиента.

ashagraev Jun 3 2017 at 10:05

Я тоже так думаю, но, если посмотреть на любую свежую выдачу, становится очевидным, что её без проблем можно было бы прокачать по всем возможным показателям: всегда можно сделать и более авторитетную, и более свежую выдачу. Так что, конечно, при всех сложностях, связанных с оптимизацией под несколько метрик, важно не забывать, что живым пользователям нужны все компоненты, и нужно их улучшать, чтобы не проиграть в конкурентной борьбе.

UFO just landed and posted this here

ashagraev Jun 1 2017 at 14:57

Да, конечно. В этой статье мы рассмотрели только веб-свежесть, я специально это подчеркиваю, в противном случае статья получилась бы невообразимо длинной :) При этом нужно помнить, что текстовые документы обеспечивают львиную долю потребления свежей информации, а методы, используемые для их ранжирования, применимы и к другим типам контента.

dklein Jun 1 2017 at 19:41

С развитием распознавалок картинок и речь грань стирается. По сути что текст, что видео — это объект с набором атрибутов.

UFO just landed and posted this here

PAM3EC Jun 2 2017 at 12:06

В поисковике Яндекса очень не хватает одной кнопки — поиск за год.

VT100 Jun 4 2017 at 14:41

Она там есть, в расширенных настройках поиска. Но… недавно пару раз пробовал поиск с временным диапазоном и был неприятно удивлён наличием в выдаче какого-то старого мусора. Пользуясь случаем, вопрос к Яндексу — что пошло не так?

И ещё вопрос — почему так сильно сократилась подсказка с операторами поиска?

https://help.yandex.ru/search/?id=1111313

Простые операторы типа скобок, &, &&, << и т.п. я ещё помню. Но не будут-ли и они удалены, поскольку их нет в текущей подсказке? А пусть и редко используемые, но неплохие операторы поиска «в рамках N слов друг от друга» я не запомнил. Ещё бывает нужно искать страницы со ссылками на заданную. Как-то давно я это делал, а сейчас не могу найти подходящих операторов поиска…

PAM3EC Jun 4 2017 at 14:47

Нет там кнопки — за Год.
Есть за сутки, за 2 недели и за месяц.
Диапазон не предлагать.

VT100 Jun 25 2017 at 13:29

Зря я это тут написал. Похоже — прибили всё оставшееся. Придётся искать на утке или гоголе…

Chupakabra303 Jun 8 2017 at 19:11

А в гугле не хватает поиска за 3 и 6 месяцев. С чего они решили, что сразу за месяцем должен следовать год. Слишком часто есть желание, найти что-то в интервале между годом и месяцем, но нет.

Wiiseacre Jun 2 2017 at 12:06

Итак, быстроботу яндекса не хватило 12 часов на то, чтобы найти статью, написанную сотрудниками яндекса, о том, какой у яндекса быстрый быстробот:
http://i.imgur.com/L1HL61p.png
А вот гугл её нашёл:
http://i.imgur.com/r2ghg7k.png

Советую авторам статьи, во избежание позора в следующий раз, просить администрацию добавлять статьи через аддурилку в яндекс.вебмастере.

ashagraev Jun 3 2017 at 10:03

Привет :) Досадно это признавать, но претензия совершенно по делу. Ведь нельзя просто так написать пост про свежесть и чтобы ничто не пошло не так! :) Действительно, в день публикации испытывали проблемы с индексацией именно в районе Хабра.

К счастью, такое случается редко, а о общих показателях в этом месте намного нагляднее любых слов говорит график Ашманова.

Wiiseacre Jun 4 2017 at 21:40

Да вас никто ни в чем не обвиняет, все давно уже знают, что у вас вредительский быстробот: когда по ошибке какую-нибудь чушь выложишь, то она в индексе оказывается ещё до того, как кнопку опубликовать нажмёшь. А вот когда что-то нужное добавляешь, то никогда попадения в быстроботовскую примесь не дождёшься.

Но, само собой, плохое лучше запоминается. Поэтому график от Ашманова к месту.

-1

AlexeyKosov Jun 6 2017 at 07:03

Так как в итоге «быстробот» так быстро узнает о появлении новой страницы?

ashagraev Jun 6 2017 at 07:28

В основном — так же, как и большой робот, то есть, по ссылкам. Нельзя выкладывать на поиск документы, если мы не знаем, как по набору ссылок, каждая из которых не закрыта robots.txt, эти документы достижимы. Есть небольшое количество магии, связанной с особенностями свежести:

Детектить нужно очень быстро, поэтому крупные "хабы" — источники хороших свежих страниц — нужно обходить очень часто. Примерами таких хабов могут служить главные страницы СМИ. Некоторые хабы благодаря Яндекс.Новостям мы знаем априори, а некоторые автоматически детектируются как страницы, на которых часто появляются ссылки на "хорошие" документы.
Какие из обнаруженных документов нужно скачать, решает специальная формула, которой приходится работать с очень ограниченным набором факторов, т.к. про новый документ мы часто знаем только одну ссылку и собственно урл. Хорошо работают всякие агрегации по кускам урла (например, мы знаем, что урлы, начинающиеся с lenta.ru, оказываются достаточно посещаемыми). У этой формулы есть еще одна особенность: мы не можем очень много качать с одних и тех же хостов/айпишников, т.к. легко можем устроить дружественному источнику DDoS. Так что формуле приходится каждый раз решать задачу "выбрать не более N лучших документов из M для каждого хоста". Еще бывает так, что страница сама по себе плохая и в поиск вряд ли попадёт, зато с неё есть много ссылок на другие хорошие страницы. Поэтому обучение формул в этом месте можно написать отдельную статью :)
Отобранные документы быстро прокачиваются и часть из прокачанного, еще и на основе контентных факторов (текста, заголовка, картинок и т.п.) попадает в индекс. Документ нужно очень быстро сделать доступным для индексации, поэтому для суперсвежего слоя у нас работает специальная разновидность поиска, которая может очень быстро подтягивать обновления.

Еще есть два интересных момента про быстрый робот:

Нужна снималка дублей, причем понятно, что для нее набор средств очень ограничен — например, какой-нибудь глобальный reduce по шинглам совсем не подходит.
Нужно определять, какие документы на самом деле являются старыми. Бывает так, что документ старый, а ссылку на него мы узнали вот только что — базово нет никакого способа понять, что документ очень старый. Приходится выкручиваться :)

Optimus_990 Jun 6 2017 at 09:10

Раньше юзал Яндекс для региональных запросов. А так, по релевантности предпочтительнее по привычке гуголь.