Комментарии 10
Чего мы больше всего хотим, когда открываем интернет-поисковик? Мы хотим как можно быстрее его покинуть
Извините, но «Поиск Mail.Ru» даже открывать не хочется.
Извините, но «Поиск Mail.Ru» даже открывать не хочется.
-6
Буквально вчера рассуждал о том, что современные поисковики должны чем-то подобным заниматься, чтобы оставаться конкурентными.
Скажите, а до полноценного семантического анализа без участия человека всё ещё так же далеко как лет 10-15 назад?
Скажите, а до полноценного семантического анализа без участия человека всё ещё так же далеко как лет 10-15 назад?
+3
Как вы различаете ядро — понятно, шум — тоже не тяжело догадаться, а вот как вы различаете роли типа «фон» и «путь» осталось неясным.
0
> Если взять запросы, ведущие внутрь сайта (например, «райффайзен банкоматы»), и похожим образом «вычесть» из них запросы, ведущие на его корневую страницу («райффайзен»), получим путь.
Вроде идея в том, чтобы считать путем часть запроса, которая меняет таргет с главной на внутреннюю страницу сайта.
Вроде идея в том, чтобы считать путем часть запроса, которая меняет таргет с главной на внутреннюю страницу сайта.
-1
Мой вопрос, не по принятой терминологии, а о том как научиться отличать где «путь», а где «фон». Какой механизм используется для этого?
0
Да и я вроде не про терминологию.
Есть ядро [авито] и два запроса: с фоном [авито объявления] и с путем [авито телефоны].
Ваш вопрос, как понять в каком запросе путь, а в каком фон, верно?
Если с ядром, шумом и регионом все ясно, то судя по статье, имеется разметка:
[авито] --> avito.ru
[авито объявления] --> avito.ru
[авито телефоны] --> avito.ru/telefony
Соответственно, механизм вычитает из двух последних запросов ядро и оставляет два слова. Дальше смотрит, что одно из слов (объявления) не изменило урл в сравнении с ядром, значит является фоном, второе (телефоны) изменило урл, значит является путем.
Есть ядро [авито] и два запроса: с фоном [авито объявления] и с путем [авито телефоны].
Ваш вопрос, как понять в каком запросе путь, а в каком фон, верно?
Если с ядром, шумом и регионом все ясно, то судя по статье, имеется разметка:
[авито] --> avito.ru
[авито объявления] --> avito.ru
[авито телефоны] --> avito.ru/telefony
Соответственно, механизм вычитает из двух последних запросов ядро и оставляет два слова. Дальше смотрит, что одно из слов (объявления) не изменило урл в сравнении с ядром, значит является фоном, второе (телефоны) изменило урл, значит является путем.
0
Тут больше вопрос как решаются задачи классификации токенов, если есть более крупные запросы, например, [авито объявления с телефонами] в нескольких случаях:
1) если токен «объявления» или «телефон» не размечены в базе (или такого не бывает)?
2) если оба токена («объявления» и «телефон») размечены, как путь?
И второй момент: как происходит классификация токенов «объявления» и «телефон» в запросе [авито объявления с телефонами], если по запросам [авито объявления] и [авито телефоны] люди кликали на два разных url в 95%+ случаев.
Возможно, конечно, такие запросы просто идут как запросы смешанного типа.
1) если токен «объявления» или «телефон» не размечены в базе (или такого не бывает)?
2) если оба токена («объявления» и «телефон») размечены, как путь?
И второй момент: как происходит классификация токенов «объявления» и «телефон» в запросе [авито объявления с телефонами], если по запросам [авито объявления] и [авито телефоны] люди кликали на два разных url в 95%+ случаев.
Возможно, конечно, такие запросы просто идут как запросы смешанного типа.
0
спасибо за статью.
когда-то делал музыкальный сайт (и еще применят такой подход в интернет магазине), помню как делал парсер запросов и так же выделял из запроса ядро и прочие. аттрибуты и в соответствии с «формулой запроса» осуществлял поиск. Конечно в поисковике все это сложнее, но основные идеи можно использовать и в сайтостроении.
когда-то делал музыкальный сайт (и еще применят такой подход в интернет магазине), помню как делал парсер запросов и так же выделял из запроса ядро и прочие. аттрибуты и в соответствии с «формулой запроса» осуществлял поиск. Конечно в поисковике все это сложнее, но основные идеи можно использовать и в сайтостроении.
0
Зарегистрируйтесь на Хабре, чтобы оставить комментарий
Обработка и классификация запросов. Часть вторая: навигационные запросы