yafinder May 29 2014 at 16:46

Почему в поиске без лингвистики не обойтись?

19 min

23K

Яндекс corporate blogSearch engines*Algorithms*

+58

Comments 14

MaximAL May 29 2014 at 17:01

Про „#####“ понравилось. Проверил.

mtivkov May 29 2014 at 20:33

Но как? Ни один же поисковик не ищет, даже встроенный в википедию.

yafinder May 29 2014 at 20:42

Если начать набирать ##### в поисковой строке, то в подсказках появляются запросы про эту группу, и некоторые из них таки работают (за счет дополнительных слов). Например, такой.

flerant May 30 2014 at 19:15

Думаю, такой запрос и без решёток будет работать

yafinder May 30 2014 at 21:32

Конечно. Я имел в виду, что таким способом проще всего найти в интернете доказательство существования группы ##### :)

flerant Jun 2 2014 at 09:18

Всё, понял, что вы имели ввиду.

MagicWolf May 30 2014 at 16:32

Last.fm находит.

MaximAL Jun 2 2014 at 15:08

Так написал же в разные поисковики; увидел, что ничего не найдено; так и проверил.

NoN Jun 1 2014 at 15:48

Поэтому они всегда и везде дублируют searchable название "##### (5diez)".

Странно что поисковики до сих пор не обработали как-то особенно этот случай (точно не единственный). Хотя бы автозамену на «5diez».

bougakov May 29 2014 at 17:15

Интересно, а мне одному кажется, что лингвистами в Яндексе затыкают чувствительную проблему с неполнотой базы?

Яндекс прекрасно отвечает на запросы в духе «пластиковые окна купить», но как только ищешь что-то специфическое — название ли, термин — и машина начинает «играть» словами запроса, подбирая близкие фонетически аналоги, по которым результатов в выдаче будет больше. Прямо-таки просвечивает желание извернуться, но не показать «полтора результата» в выдаче.

Натыкаешься на такое раз, три, десять — и переходишь в Google, у которого страничек в базе — намного, намного больше. А потом и вовсе начинаешь задавать вопросы Гуглу на английском.

yafinder May 29 2014 at 17:25

машина начинает «играть» словами запроса, подбирая близкие фонетически аналоги, по которым результатов в выдаче будет больше

Именно такой логики нет, она, по-моему, была бы сознательным вредительством. По симптомам похоже на работу опечаточного смешивания: если машина подозревает опечатку, но не уверена, она составит выдачу из исходной и из выдачи по «исправленному» запросу. Если опечаточник при этом ошибся, то итог будет каким-то таким.

Согласен, обидно быть грамотным человеком в мире, где пользователи пишут "смареть бесплатна расценке на аделачные работы казане", а поисковики всё это пытаются отрабатывать.

impwx May 29 2014 at 19:37

Отдельный респект за шикарные картинки, сделанные специально для поста!

+12

tyomitch May 31 2014 at 00:36

Язык запросов – естественный язык в том плане, что он выдерживает многие тесты, например, подчиняется закону Ципфа и другим закономерностям естественных языков.

Американский биолог Ли Вэньтянь попытался[2] опровергнуть закон Ципфа, строго доказав, что случайная последовательность символов также подчиняется закону Ципфа. Автор делает гипотетический вывод, что закон Ципфа, по-видимому, является чисто статистическим феноменом, не имеющим отношения к семантике текста.

yafinder May 31 2014 at 11:06

Я знаю об этих работах, но отношусь к ним прохладно. Они иллюстрируют, что у закона Ципфа может быть статистическое основание, сама по себе эта мысль очень разумна. Но механизмы, предлагаемые что Ли Вэньтянем, что Витольдом Белевичем, никакого отношения к реальности не имеют. Язык не генерируется «с нуля» как последовательность символов (а тем более независимых и равномерно распределенных). Все известные нам языки являются результатом развития каких-то более древних; у этого процесса тоже есть свои закономерности, но они гораздо строже «случайной замены, подчиняющейся такому-то распределению» (см., например, elementy.ru/lib/430720#4, вообще очень советую почитать этот текст, если вы ещё не читали). Наконец, как я уже писал, закон Ципфа выполняется и для русского языка, и для языка запросов, слова как последовательности букв при этом одни и те же, но частоты совершенно разные: в top 3 насколько помню, вообще нет пересечений. Уже только одно это означает, что «случайная генерация последовательностей букв» — негодная модель явления. Обоснование, которое предлагал сам Ципф, мне кажется гораздо разумнее.