Вертикальные поисковики — некоторые части доклада / Хабр

Выдержки из доклада на СПИК в Санкт-Петербурге.

До моего выступления ко мне обратились несколько человек с вопросом, а что такое, собственно, вертикальный поисковик? Поэтому я добавил несколько разъясняющих моментов…

Если под вертикальным поиском понимать структурированную информацию по какой-либо теме, то сама идея вертикальных или нишевых поисковиков будет далеко не новой. Еще в самом начале Интернета (когда не было крупных игроков и рынок не был структурирован) веб-мастера делали тематические сайты, например, поиск по автомобилям, новости об авто, отзывы, каталог сайтов авто-тематики.

В Рунете, например, авто.ру – типичная вертикаль, информация структурирована, одной тематики. Только база пополняется самими пользователями, а не состоит из объявлений с других сайтов. Сравнение цен kelkoo.com (с 2000 года) или агрегатор цен на товары price.ru, появившийся лет 10 назад – в какой-то степени тоже вертикали. База пополняется за счет предоставления редакторами сайтов контента в заданном формате.

В общем, чтобы не путаться во всем этом многообразии, вертикальный поиск предлагаю считать поисковиком по сайтам одной тематики, причем верт-поисковик является раздатчиком трафика, а не держателем его внутри себя.

Чем верт-поиск лучше горизонтального?

1. Куча мала.

Попробуем ввести запрос «nissan x-trail новый» в Rambler и Google. В первой десятке получим ссылки на…

SERP pos	Rambler	Google
1.	Дилер	Дилер
2.	Каталог авто	Дилер – карточка модели
3.	Дилер	Обзор авто
4.	Дилер	Джинса
5.	Фотоальбом	Обзор – тот же что и в п3
6.	Сообщение на форуме	Каталог, модельный ряд
7.	Новости – точнее помойка	Новость
8.	Новости	Дилер (почему-то китайские авто)
9.	Новости	Обзор
10.	Новости	Дилер

Как видим, результаты поиска из совершенно разных по сути и структуре источников (новости, описания, цены, каталоги и т.д.) выделяются в виде одного пронумерованного длинного списка практически безо всяких средств для их рассортировки, причем с потерей структуры изначальных данных.

2. Multiклик

Результаты поиска – это список ссылок. Для того, чтобы получить информацию, юзер должен кликнуть на одну из этих ссылок еще раз (в лучшем случае – один раз!). Если юзер ищет информацию для сравнения (цены, условия и т.д.), то он вынужден долго кликать по ссылкам, причем на составление полной картины мира ему необходимо большое терпение.

3. Мусор

Значительная часть инета состоит из текстового хлама: спаммерских сайтов, джинсы, перепечаток, мусорной, намерено искаженной информации – причем эти сайты все труднее отличить от «нормальных» сайтов, особенно с учетом того, что на раскрутку всего этого мусора тратятся большие ресурсы. В такой ситуации становится все труднее выделить из (в машинном понимании объективного списка) источники авторитетной, достоверной и актуальной информации.

Но с другой стороны, горизонтальный поиск. Нельзя даже тысячей вертикалей (хотя популярных тем вряд ли более 50) охватить весь интернет.

Какие бывают вертикали? Или немного классификации

По получению информации:

Контент собираем сами и нормализуем, т.е. приводим «к единому знаменателю». Примеры: (100работ, авто.яндекс.ру).
Поставщики контента сами предоставляют контент в едином формате. Пример: (прайс.ру).
Cмешанный вариант, т.е. собираем сами + принимаем контент от поставщиков.
Web-based (поиск по выбранным сайтам). Пример: YellowSearch.

По тематике: новости, мп3 файлы, видео, книги, программные коды, электроника, словари. Думаю, примеры не нужны.

По типу информации: текст, картинки, видео, музыка.

По географии (webbased). В масштабах страны, региона-областиа. Например, поисковик только по сайтам одного города.

Подводные камни на пути развития верт.поисковиков

Тему по вертикали вакансий расширенно раскрываю здесь.
В целом, проблемы следующие:

Незаинтересованность со стороны крупных игроков (которые агрегировали большую долю данных на рынке). Есть риск сговора игроков для отключения любого вертикального поиска. (а переключиться на отображение офф-лайн объявлений сложно — все газетные объявления кратки, не информативны, поэтому не подходят формату).
Тематические базы банных. Те же вертикали, но в офф-лайн (доступны проф.игрокам). Они имеются, скажем, в недвижимости, в туризме. Они всегда будут более актуальные, более полные, чем то, что появляется в интернет.
Вертикали сложно монетизировать. Наличие сильных офф-лайн конкурентов (работа, туризм, досуг и развлечения, строительство, недвижимость, красота и здоровье, авто, товары и т.п.), которые имеют большую часть бюджета клиента.

Каждый вертикальный поиск стремится быть максимально полным (содержать больше всего данных), быть максимально актуальным, представлять данные максимально качественно. Думаю, что через год-два нужно будет задуматься о том, что сверх всего этого предложить пользователям…

Зачем сделали Бету?

Beta – проект экспериментальный. Beta – это множество специализированных (вертикальных) поисков, «вживленных» в тело традиционного поиска по страницам интернет-сайтов. Сочетает в себе всеохватность поиска по интернету, позволяет структурировать результаты поиска по темам. Обеспечивает одновременный — через один клик — поиск по различным источникам информации.

Цели проекта были самыми прагматическими:
1. Собрать мнение пользователей о новом дизайне, интерфейсах, новых визуальных решениях, новых вертикалях (например, «отзывы и обзоры»).
2. Сбор статистики (в т.ч. для улучшения работы релевантности вертикалей). Различные исследования. Например, при запросе названия товара «canon 40d» что чаще всего пользователи имеют ввиду? Купить фотоаппарат? Почитать обзор? Узнать новости? А при запросе «карты»? Географические? (И какие?) Графические? Игральные?
3. Монетизация.

Как определяем релевантность вертикалей?

Статическая релевантность

У нас есть предположения о том, к какой вертикали относится тот или иной запрос. В настоящее время это частотность слов запроса в той или иной тематике (корпусе вертикали) + список ключевых слов и выражений, задаваемых вручную. На первом шаге мы делаем первоначальную оценку запроса, называемую статической релевантностью. Оценку производит внутренний модуль QueryBroker. Существует нижний порог статической релевантности, позволяющий опрашивать вертикаль.

Динамическая и результирующая релевантность

Под динамической релевантностью понимается оценка вертикалью собственного соответствия запросу. Это решение она может принимать на основе ряда оценок — например, количества результатов по запросу на данный момент. Алгоритмы определения динамической релевантности обговариваются с каждой вертикалью отдельно.

Результирующая релевантность получается исходя из формулы, в которой главными параметрами являются стат. и динам. релевантность, другие параметры и константы. Вертикали сортируются исходя из их релевантности. Если рез.релев. будет меньше определенного числа, то вертикаль не показывается.

Результат применения рез.релевантности, отрисовки очередности вертикалей можно посмотреть в нашей новой вертикали авто.

XAG

Система XAG (eXtended AGgregator) – это ядро нашего вертикального поиска. Она обеспечивает получение, анализ и обработку полученной информации, а также поиск по ней. Уникальность системы в том, что ее сравнительно легко адаптировать под новую вертикаль (тематическую область), не затрачивая при этом много ресурсов.

Сбор данных. Для каждого сайта создается парсер-приложение, позволяющее выделить из html-документа нужную информацию. Например, в поиске по вакансиям мы выделяем такие параметры как название вакансии, название компании, зарплата, описание и т.п. Причем выделение происходит в полуавтоматическом режиме.

Обработка данных. Заключается в анализе полученной информации путем ее обобщения и структуризации. Например, если у нас есть база большинства работодателей, и если в документе не указан работодатель, но указан только его телефонный номер, то мы можем определить название работодателя по его номеру. Также эту базу можно пополнять новыми данными о работодателе. Таким образом, мы можем вычислять кадровые агентства, даже если на сайте оно явно не указано. Или, например, определяем вакансии-повторы, вакансии сомнительной тематики, вроде сетевого маркетинга. Из «очищенных» данных строятся поисковые индексы, используемые непосредственно в поиске.

При этом учитывается синонимичность выражений, например, «мед. страховка» и «медицинская страховка» соответствуют одному термину. Кстати синонимы будут и в названиях компаний, например «ОАО Гугл» и «Google». Планируется и в названии вакансий: «специалист по интерфейсам» и «юзабилист».

Что будет в Бета 2.0

Все на конференции в Калининграде, куда я еду в конце недели. Говорят, очень красивый город.

PS «Какая тогда разница между старым и новым поиском? — всё равно приходится вводить то, что ищешь… (из отзывов пользователей)».