Как стать автором
Обновить

Комментарии 10

Чего мы больше всего хотим, когда открываем интернет-поисковик? Мы хотим как можно быстрее его покинуть

Извините, но «Поиск Mail.Ru» даже открывать не хочется.
Буквально вчера рассуждал о том, что современные поисковики должны чем-то подобным заниматься, чтобы оставаться конкурентными.

Скажите, а до полноценного семантического анализа без участия человека всё ещё так же далеко как лет 10-15 назад?
Да, сейчас считается, что до полноценного семантического анализа без участия человека осталось примерно 20 лет. То есть столько же, сколько оставалось 10-15 лет назад.
Это, похоже, инвариантная величина.
Как вы различаете ядро — понятно, шум — тоже не тяжело догадаться, а вот как вы различаете роли типа «фон» и «путь» осталось неясным.
> Если взять запросы, ведущие внутрь сайта (например, «райффайзен банкоматы»), и похожим образом «вычесть» из них запросы, ведущие на его корневую страницу («райффайзен»), получим путь.

Вроде идея в том, чтобы считать путем часть запроса, которая меняет таргет с главной на внутреннюю страницу сайта.
Мой вопрос, не по принятой терминологии, а о том как научиться отличать где «путь», а где «фон». Какой механизм используется для этого?
Да и я вроде не про терминологию.
Есть ядро [авито] и два запроса: с фоном [авито объявления] и с путем [авито телефоны].
Ваш вопрос, как понять в каком запросе путь, а в каком фон, верно?
Если с ядром, шумом и регионом все ясно, то судя по статье, имеется разметка:
[авито] --> avito.ru
[авито объявления] --> avito.ru
[авито телефоны] --> avito.ru/telefony
Соответственно, механизм вычитает из двух последних запросов ядро и оставляет два слова. Дальше смотрит, что одно из слов (объявления) не изменило урл в сравнении с ядром, значит является фоном, второе (телефоны) изменило урл, значит является путем.
Тут больше вопрос как решаются задачи классификации токенов, если есть более крупные запросы, например, [авито объявления с телефонами] в нескольких случаях:
1) если токен «объявления» или «телефон» не размечены в базе (или такого не бывает)?
2) если оба токена («объявления» и «телефон») размечены, как путь?

И второй момент: как происходит классификация токенов «объявления» и «телефон» в запросе [авито объявления с телефонами], если по запросам [авито объявления] и [авито телефоны] люди кликали на два разных url в 95%+ случаев.

Возможно, конечно, такие запросы просто идут как запросы смешанного типа.
Да, вы правы, запросы, которые не удалось «разобрать на части» непротиворечивым образом, просто считаются запросами смешанного типа и обрабатываются на общих основаниях.
спасибо за статью.
когда-то делал музыкальный сайт (и еще применят такой подход в интернет магазине), помню как делал парсер запросов и так же выделял из запроса ядро и прочие. аттрибуты и в соответствии с «формулой запроса» осуществлял поиск. Конечно в поисковике все это сложнее, но основные идеи можно использовать и в сайтостроении.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий