Comments 14
Про „#####“ понравилось. Проверил.
+2
Но как? Ни один же поисковик не ищет, даже встроенный в википедию.
+1
Поэтому они всегда и везде дублируют searchable название "##### (5diez)".
Странно что поисковики до сих пор не обработали как-то особенно этот случай (точно не единственный). Хотя бы автозамену на «5diez».
Странно что поисковики до сих пор не обработали как-то особенно этот случай (точно не единственный). Хотя бы автозамену на «5diez».
0
Интересно, а мне одному кажется, что лингвистами в Яндексе затыкают чувствительную проблему с неполнотой базы?
Яндекс прекрасно отвечает на запросы в духе «пластиковые окна купить», но как только ищешь что-то специфическое — название ли, термин — и машина начинает «играть» словами запроса, подбирая близкие фонетически аналоги, по которым результатов в выдаче будет больше. Прямо-таки просвечивает желание извернуться, но не показать «полтора результата» в выдаче.
Натыкаешься на такое раз, три, десять — и переходишь в Google, у которого страничек в базе — намного, намного больше. А потом и вовсе начинаешь задавать вопросы Гуглу на английском.
Яндекс прекрасно отвечает на запросы в духе «пластиковые окна купить», но как только ищешь что-то специфическое — название ли, термин — и машина начинает «играть» словами запроса, подбирая близкие фонетически аналоги, по которым результатов в выдаче будет больше. Прямо-таки просвечивает желание извернуться, но не показать «полтора результата» в выдаче.
Натыкаешься на такое раз, три, десять — и переходишь в Google, у которого страничек в базе — намного, намного больше. А потом и вовсе начинаешь задавать вопросы Гуглу на английском.
+8
машина начинает «играть» словами запроса, подбирая близкие фонетически аналоги, по которым результатов в выдаче будет больше
Именно такой логики нет, она, по-моему, была бы сознательным вредительством. По симптомам похоже на работу опечаточного смешивания: если машина подозревает опечатку, но не уверена, она составит выдачу из исходной и из выдачи по «исправленному» запросу. Если опечаточник при этом ошибся, то итог будет каким-то таким.
Согласен, обидно быть грамотным человеком в мире, где пользователи пишут "смареть бесплатна расценке на аделачные работы казане", а поисковики всё это пытаются отрабатывать.
+5
Отдельный респект за шикарные картинки, сделанные специально для поста!
+12
Язык запросов – естественный язык в том плане, что он выдерживает многие тесты, например, подчиняется закону Ципфа и другим закономерностям естественных языков.
Американский биолог Ли Вэньтянь попытался[2] опровергнуть закон Ципфа, строго доказав, что случайная последовательность символов также подчиняется закону Ципфа. Автор делает гипотетический вывод, что закон Ципфа, по-видимому, является чисто статистическим феноменом, не имеющим отношения к семантике текста.
0
Я знаю об этих работах, но отношусь к ним прохладно. Они иллюстрируют, что у закона Ципфа может быть статистическое основание, сама по себе эта мысль очень разумна. Но механизмы, предлагаемые что Ли Вэньтянем, что Витольдом Белевичем, никакого отношения к реальности не имеют. Язык не генерируется «с нуля» как последовательность символов (а тем более независимых и равномерно распределенных). Все известные нам языки являются результатом развития каких-то более древних; у этого процесса тоже есть свои закономерности, но они гораздо строже «случайной замены, подчиняющейся такому-то распределению» (см., например, elementy.ru/lib/430720#4, вообще очень советую почитать этот текст, если вы ещё не читали). Наконец, как я уже писал, закон Ципфа выполняется и для русского языка, и для языка запросов, слова как последовательности букв при этом одни и те же, но частоты совершенно разные: в top 3 насколько помню, вообще нет пересечений. Уже только одно это означает, что «случайная генерация последовательностей букв» — негодная модель явления. Обоснование, которое предлагал сам Ципф, мне кажется гораздо разумнее.
0
Sign up to leave a comment.
Почему в поиске без лингвистики не обойтись?