Выдержки из доклада на СПИК в Санкт-Петербурге.
До моего выступления ко мне обратились несколько человек с вопросом, а что такое, собственно, вертикальный поисковик? Поэтому я добавил несколько разъясняющих моментов…
Если под вертикальным поиском понимать структурированную информацию по какой-либо теме, то сама идея вертикальных или нишевых поисковиков будет далеко не новой. Еще в самом начале Интернета (когда не было крупных игроков и рынок не был структурирован) веб-мастера делали тематические сайты, например, поиск по автомобилям, новости об авто, отзывы, каталог сайтов авто-тематики.
В Рунете, например, авто.ру – типичная вертикаль, информация структурирована, одной тематики. Только база пополняется самими пользователями, а не состоит из объявлений с других сайтов. Сравнение цен kelkoo.com (с 2000 года) или агрегатор цен на товары price.ru, появившийся лет 10 назад – в какой-то степени тоже вертикали. База пополняется за счет предоставления редакторами сайтов контента в заданном формате.
В общем, чтобы не путаться во всем этом многообразии, вертикальный поиск предлагаю считать поисковиком по сайтам одной тематики, причем верт-поисковик является раздатчиком трафика, а не держателем его внутри себя.
Чем верт-поиск лучше горизонтального?
1. Куча мала.
Попробуем ввести запрос «nissan x-trail новый» в Rambler и Google. В первой десятке получим ссылки на…
Как видим, результаты поиска из совершенно разных по сути и структуре источников (новости, описания, цены, каталоги и т.д.) выделяются в виде одного пронумерованного длинного списка практически безо всяких средств для их рассортировки, причем с потерей структуры изначальных данных.
2. Multiклик
Результаты поиска – это список ссылок. Для того, чтобы получить информацию, юзер должен кликнуть на одну из этих ссылок еще раз (в лучшем случае – один раз!). Если юзер ищет информацию для сравнения (цены, условия и т.д.), то он вынужден долго кликать по ссылкам, причем на составление полной картины мира ему необходимо большое терпение.
3. Мусор
Значительная часть инета состоит из текстового хлама: спаммерских сайтов, джинсы, перепечаток, мусорной, намерено искаженной информации – причем эти сайты все труднее отличить от «нормальных» сайтов, особенно с учетом того, что на раскрутку всего этого мусора тратятся большие ресурсы. В такой ситуации становится все труднее выделить из (в машинном понимании объективного списка) источники авторитетной, достоверной и актуальной информации.
Но с другой стороны, горизонтальный поиск. Нельзя даже тысячей вертикалей (хотя популярных тем вряд ли более 50) охватить весь интернет.
Какие бывают вертикали? Или немного классификации
По получению информации:
По тематике: новости, мп3 файлы, видео, книги, программные коды, электроника, словари. Думаю, примеры не нужны.
По типу информации: текст, картинки, видео, музыка.
По географии (webbased). В масштабах страны, региона-областиа. Например, поисковик только по сайтам одного города.
Подводные камни на пути развития верт.поисковиков
Тему по вертикали вакансий расширенно раскрываю здесь.
В целом, проблемы следующие:
Каждый вертикальный поиск стремится быть максимально полным (содержать больше всего данных), быть максимально актуальным, представлять данные максимально качественно. Думаю, что через год-два нужно будет задуматься о том, что сверх всего этого предложить пользователям…
Зачем сделали Бету?
Beta – проект экспериментальный. Beta – это множество специализированных (вертикальных) поисков, «вживленных» в тело традиционного поиска по страницам интернет-сайтов. Сочетает в себе всеохватность поиска по интернету, позволяет структурировать результаты поиска по темам. Обеспечивает одновременный — через один клик — поиск по различным источникам информации.
Цели проекта были самыми прагматическими:
1. Собрать мнение пользователей о новом дизайне, интерфейсах, новых визуальных решениях, новых вертикалях (например, «отзывы и обзоры»).
2. Сбор статистики (в т.ч. для улучшения работы релевантности вертикалей). Различные исследования. Например, при запросе названия товара «canon 40d» что чаще всего пользователи имеют ввиду? Купить фотоаппарат? Почитать обзор? Узнать новости? А при запросе «карты»? Географические? (И какие?) Графические? Игральные?
3. Монетизация.
Как определяем релевантность вертикалей?
Статическая релевантность
У нас есть предположения о том, к какой вертикали относится тот или иной запрос. В настоящее время это частотность слов запроса в той или иной тематике (корпусе вертикали) + список ключевых слов и выражений, задаваемых вручную. На первом шаге мы делаем первоначальную оценку запроса, называемую статической релевантностью. Оценку производит внутренний модуль QueryBroker. Существует нижний порог статической релевантности, позволяющий опрашивать вертикаль.
Динамическая и результирующая релевантность
Под динамической релевантностью понимается оценка вертикалью собственного соответствия запросу. Это решение она может принимать на основе ряда оценок — например, количества результатов по запросу на данный момент. Алгоритмы определения динамической релевантности обговариваются с каждой вертикалью отдельно.
Результирующая релевантность получается исходя из формулы, в которой главными параметрами являются стат. и динам. релевантность, другие параметры и константы. Вертикали сортируются исходя из их релевантности. Если рез.релев. будет меньше определенного числа, то вертикаль не показывается.
Результат применения рез.релевантности, отрисовки очередности вертикалей можно посмотреть в нашей новой вертикали авто.
XAG
Система XAG (eXtended AGgregator) – это ядро нашего вертикального поиска. Она обеспечивает получение, анализ и обработку полученной информации, а также поиск по ней. Уникальность системы в том, что ее сравнительно легко адаптировать под новую вертикаль (тематическую область), не затрачивая при этом много ресурсов.
Сбор данных. Для каждого сайта создается парсер-приложение, позволяющее выделить из html-документа нужную информацию. Например, в поиске по вакансиям мы выделяем такие параметры как название вакансии, название компании, зарплата, описание и т.п. Причем выделение происходит в полуавтоматическом режиме.
Обработка данных. Заключается в анализе полученной информации путем ее обобщения и структуризации. Например, если у нас есть база большинства работодателей, и если в документе не указан работодатель, но указан только его телефонный номер, то мы можем определить название работодателя по его номеру. Также эту базу можно пополнять новыми данными о работодателе. Таким образом, мы можем вычислять кадровые агентства, даже если на сайте оно явно не указано. Или, например, определяем вакансии-повторы, вакансии сомнительной тематики, вроде сетевого маркетинга. Из «очищенных» данных строятся поисковые индексы, используемые непосредственно в поиске.
При этом учитывается синонимичность выражений, например, «мед. страховка» и «медицинская страховка» соответствуют одному термину. Кстати синонимы будут и в названиях компаний, например «ОАО Гугл» и «Google». Планируется и в названии вакансий: «специалист по интерфейсам» и «юзабилист».
Что будет в Бета 2.0
Все на конференции в Калининграде, куда я еду в конце недели. Говорят, очень красивый город.
PS «Какая тогда разница между старым и новым поиском? — всё равно приходится вводить то, что ищешь… (из отзывов пользователей)».
До моего выступления ко мне обратились несколько человек с вопросом, а что такое, собственно, вертикальный поисковик? Поэтому я добавил несколько разъясняющих моментов…
Если под вертикальным поиском понимать структурированную информацию по какой-либо теме, то сама идея вертикальных или нишевых поисковиков будет далеко не новой. Еще в самом начале Интернета (когда не было крупных игроков и рынок не был структурирован) веб-мастера делали тематические сайты, например, поиск по автомобилям, новости об авто, отзывы, каталог сайтов авто-тематики.
В Рунете, например, авто.ру – типичная вертикаль, информация структурирована, одной тематики. Только база пополняется самими пользователями, а не состоит из объявлений с других сайтов. Сравнение цен kelkoo.com (с 2000 года) или агрегатор цен на товары price.ru, появившийся лет 10 назад – в какой-то степени тоже вертикали. База пополняется за счет предоставления редакторами сайтов контента в заданном формате.
В общем, чтобы не путаться во всем этом многообразии, вертикальный поиск предлагаю считать поисковиком по сайтам одной тематики, причем верт-поисковик является раздатчиком трафика, а не держателем его внутри себя.
Чем верт-поиск лучше горизонтального?
1. Куча мала.
Попробуем ввести запрос «nissan x-trail новый» в Rambler и Google. В первой десятке получим ссылки на…
SERP pos | Rambler | |
1. | Дилер | Дилер |
2. | Каталог авто | Дилер – карточка модели |
3. | Дилер | Обзор авто |
4. | Дилер | Джинса |
5. | Фотоальбом | Обзор – тот же что и в п3 |
6. | Сообщение на форуме | Каталог, модельный ряд |
7. | Новости – точнее помойка | Новость |
8. | Новости | Дилер (почему-то китайские авто) |
9. | Новости | Обзор |
10. | Новости | Дилер |
Как видим, результаты поиска из совершенно разных по сути и структуре источников (новости, описания, цены, каталоги и т.д.) выделяются в виде одного пронумерованного длинного списка практически безо всяких средств для их рассортировки, причем с потерей структуры изначальных данных.
2. Multiклик
Результаты поиска – это список ссылок. Для того, чтобы получить информацию, юзер должен кликнуть на одну из этих ссылок еще раз (в лучшем случае – один раз!). Если юзер ищет информацию для сравнения (цены, условия и т.д.), то он вынужден долго кликать по ссылкам, причем на составление полной картины мира ему необходимо большое терпение.
3. Мусор
Значительная часть инета состоит из текстового хлама: спаммерских сайтов, джинсы, перепечаток, мусорной, намерено искаженной информации – причем эти сайты все труднее отличить от «нормальных» сайтов, особенно с учетом того, что на раскрутку всего этого мусора тратятся большие ресурсы. В такой ситуации становится все труднее выделить из (в машинном понимании объективного списка) источники авторитетной, достоверной и актуальной информации.
Но с другой стороны, горизонтальный поиск. Нельзя даже тысячей вертикалей (хотя популярных тем вряд ли более 50) охватить весь интернет.
Какие бывают вертикали? Или немного классификации
По получению информации:
- Контент собираем сами и нормализуем, т.е. приводим «к единому знаменателю». Примеры: (100работ, авто.яндекс.ру).
- Поставщики контента сами предоставляют контент в едином формате. Пример: (прайс.ру).
- Cмешанный вариант, т.е. собираем сами + принимаем контент от поставщиков.
- Web-based (поиск по выбранным сайтам). Пример: YellowSearch.
По тематике: новости, мп3 файлы, видео, книги, программные коды, электроника, словари. Думаю, примеры не нужны.
По типу информации: текст, картинки, видео, музыка.
По географии (webbased). В масштабах страны, региона-областиа. Например, поисковик только по сайтам одного города.
Подводные камни на пути развития верт.поисковиков
Тему по вертикали вакансий расширенно раскрываю здесь.
В целом, проблемы следующие:
- Незаинтересованность со стороны крупных игроков (которые агрегировали большую долю данных на рынке). Есть риск сговора игроков для отключения любого вертикального поиска. (а переключиться на отображение офф-лайн объявлений сложно — все газетные объявления кратки, не информативны, поэтому не подходят формату).
- Тематические базы банных. Те же вертикали, но в офф-лайн (доступны проф.игрокам). Они имеются, скажем, в недвижимости, в туризме. Они всегда будут более актуальные, более полные, чем то, что появляется в интернет.
- Вертикали сложно монетизировать. Наличие сильных офф-лайн конкурентов (работа, туризм, досуг и развлечения, строительство, недвижимость, красота и здоровье, авто, товары и т.п.), которые имеют большую часть бюджета клиента.
Каждый вертикальный поиск стремится быть максимально полным (содержать больше всего данных), быть максимально актуальным, представлять данные максимально качественно. Думаю, что через год-два нужно будет задуматься о том, что сверх всего этого предложить пользователям…
Зачем сделали Бету?
Beta – проект экспериментальный. Beta – это множество специализированных (вертикальных) поисков, «вживленных» в тело традиционного поиска по страницам интернет-сайтов. Сочетает в себе всеохватность поиска по интернету, позволяет структурировать результаты поиска по темам. Обеспечивает одновременный — через один клик — поиск по различным источникам информации.
Цели проекта были самыми прагматическими:
1. Собрать мнение пользователей о новом дизайне, интерфейсах, новых визуальных решениях, новых вертикалях (например, «отзывы и обзоры»).
2. Сбор статистики (в т.ч. для улучшения работы релевантности вертикалей). Различные исследования. Например, при запросе названия товара «canon 40d» что чаще всего пользователи имеют ввиду? Купить фотоаппарат? Почитать обзор? Узнать новости? А при запросе «карты»? Географические? (И какие?) Графические? Игральные?
3. Монетизация.
Как определяем релевантность вертикалей?
Статическая релевантность
У нас есть предположения о том, к какой вертикали относится тот или иной запрос. В настоящее время это частотность слов запроса в той или иной тематике (корпусе вертикали) + список ключевых слов и выражений, задаваемых вручную. На первом шаге мы делаем первоначальную оценку запроса, называемую статической релевантностью. Оценку производит внутренний модуль QueryBroker. Существует нижний порог статической релевантности, позволяющий опрашивать вертикаль.
Динамическая и результирующая релевантность
Под динамической релевантностью понимается оценка вертикалью собственного соответствия запросу. Это решение она может принимать на основе ряда оценок — например, количества результатов по запросу на данный момент. Алгоритмы определения динамической релевантности обговариваются с каждой вертикалью отдельно.
Результирующая релевантность получается исходя из формулы, в которой главными параметрами являются стат. и динам. релевантность, другие параметры и константы. Вертикали сортируются исходя из их релевантности. Если рез.релев. будет меньше определенного числа, то вертикаль не показывается.
Результат применения рез.релевантности, отрисовки очередности вертикалей можно посмотреть в нашей новой вертикали авто.
XAG
Система XAG (eXtended AGgregator) – это ядро нашего вертикального поиска. Она обеспечивает получение, анализ и обработку полученной информации, а также поиск по ней. Уникальность системы в том, что ее сравнительно легко адаптировать под новую вертикаль (тематическую область), не затрачивая при этом много ресурсов.
Сбор данных. Для каждого сайта создается парсер-приложение, позволяющее выделить из html-документа нужную информацию. Например, в поиске по вакансиям мы выделяем такие параметры как название вакансии, название компании, зарплата, описание и т.п. Причем выделение происходит в полуавтоматическом режиме.
Обработка данных. Заключается в анализе полученной информации путем ее обобщения и структуризации. Например, если у нас есть база большинства работодателей, и если в документе не указан работодатель, но указан только его телефонный номер, то мы можем определить название работодателя по его номеру. Также эту базу можно пополнять новыми данными о работодателе. Таким образом, мы можем вычислять кадровые агентства, даже если на сайте оно явно не указано. Или, например, определяем вакансии-повторы, вакансии сомнительной тематики, вроде сетевого маркетинга. Из «очищенных» данных строятся поисковые индексы, используемые непосредственно в поиске.
При этом учитывается синонимичность выражений, например, «мед. страховка» и «медицинская страховка» соответствуют одному термину. Кстати синонимы будут и в названиях компаний, например «ОАО Гугл» и «Google». Планируется и в названии вакансий: «специалист по интерфейсам» и «юзабилист».
Что будет в Бета 2.0
Все на конференции в Калининграде, куда я еду в конце недели. Говорят, очень красивый город.
PS «Какая тогда разница между старым и новым поиском? — всё равно приходится вводить то, что ищешь… (из отзывов пользователей)».