Как стать автором
Обновить

Поиск 2.0, каким он, возможно, будет

Время на прочтение5 мин
Количество просмотров1.3K
Возьмем в качестве отправной точки две довольно известные цитаты:
  1. «Поисковые системы стали одним из двух новых чудес света, предоставив Homo Sapiens неограниченный и мгновенный доступ к информации.» Илья Сегалович, «Как работают поисковые системы»
  2. «Интернет похож на большую свалку: там есть все, но найти это невозможно.» Народная мудрость

Выделим три основные проблемы, с которыми приходится сталкиваться в современных поисковых машинах.

Основные проблемы поиска информации


  1. Вместо поиска информации поиск ссылок на нее.
    Вам еще не надоели сниппеты? Сколько времени тратится на поход по ссылкам, и последующий поиск информации на страницах. Да, при этом мы крутим банеры, счетчики посетителей и прочая, радуя владельцев, но от публикации RSS потока никто ведь не страдает? В 90 случаях из 100 мы ищем информацию, а получаем ссылку, где она, возможно, расположена. Вместо мгновенного доступа требуемая информация отдаляется от нас за некоторый барьер.
  2. Вместо поиска в ширину поиск в глубину.
    По запросу «Интернет» Яндекс предлагает 602 млн страниц и данный показатель продолжает расти. А если на Ваш вопрос «Что такое Интернет» собеседник ответит «Я слышал это слово 602 млн раз, тебя который раз интересует?», Вы врядли останетесь довольны. Скорее всего наш мысленный собеседник начнет рассказывать про протоколы, если он технический специалист, либо про социальные сети, иначе. В любом случае у него будет один ответ на вопрос. Даже если этот ответ будет совершенно точным и абсолютно бесполезным, как в известном анекдоте.
  3. Смешанные результаты поиска.
    Задайте запрос «чайка». Вы получите в одной куче информацию про часы, машину, птицу и т.д. Единым списком, в перемешку друг с другом. Да, есть робкие попытки некоторых систем вывести рядом сопутствующие слова либо дерево кластеров, но это родит новый запрос со своим локальным хаосом. Почему нельзя выдачу аккуратно порезать на разделы (а не сопутствующие слова), и выдавать результат по данным разделам? Птицы отдельно, машины отдельно, иначе мгновенность доступа к информации тонет под ее разнородностью.

У разработчиков здесь есть специальная мантра на все случаи жизни, которую можно применить и к перечисленным вопросам — «Пользователь сам не знает что он хочет», поэтому мы вынуждены поступать так как мы поступаем. Позвольте, когда Вы спрашиваете своего коллегу или случайного прохожего, он понимает чего Вы от него хотите?

Описание поиска 2.0


Критиковать — самое простое занятие, но все таки что бы хотелось увидеть в поисковых машинах «завтрашнего дня», или в поиске 2.0?
  1. Интерфейс: веб-чат, интерфейс командной строки (cli), instant messenger (im)
  2. Принцип: диалог между поисковой системой и пользователем
  3. Отличия:
    • готовая информация
    • поддержка контекста беседы («и сколько ЭТО стоит?»)

  4. Бонус:
    • AI — возможность, за счет логического вывода, генерировать новую информацию
    • поддержка диалога («Привет, как поживаешь?»)


И в завершение, небольшой бриф по собственным попыткам решить обозначенные в начале статьи проблемы (важное замечание — все описанные ниже сервисы работают только с английским языком, ибо все лишь прототипы). Это не поиск 2.0, это оптимизирующие надстройки над Гуглом, переформатирующие результаты поиска.

Search explorer


Первую свою попытку внести собственный порядок в результаты поиска я назвал Search explorer и расположил по адресу newisearch.com. Среди основных возможностей:
  • Определение ключевых словосочетаний контекста
  • Кластеризация их по тематическим группам
  • Навигация по группам в режиме «Закладки»
  • Режим «Мне повезет», позволяет навигироватся не по результатам поиска, а по «готовым» сайтам, максимально релевантным выбранному кластеру
  • Режим поиска с указанием контекста для снятия омонимии. Пример: запрос «jaguar @car» позволит найти результаты вида «ягуар едет», а запрос «jaguar animal» — «ягуар бежит».

Search explorer

Command line interface agent


Вторая попытка — jabber агент agent@clisearch.net, осуществляющий подбор пяти наиболее подходящих абзацев о предмете поиска. Это уже интерфейс командной строки, правда без поддержки контекста и с долгим временем отклика, ибо требуется обработать большое количество результирующих страниц.
Пример работы:

me: -q internet
agent:
1. The Internet is a global system of interconnected computer networks that use the standard Internet Protocol Suite ( TCP/ IP) to serve billions of users worldwide. It is a network of networks that consists of millions of private, public, academic, business, and government networks of local to global scope that are linked by a broad array of electronic and optical networking technologies. — en.wikipedia.org/wiki/Internet
2. All Categories Communications Computer Industry Companies Computer Science Data Graphics Hardware Internet and Online Services Mobile Computing Multimedia Networks Open Source Operating Systems Programming Software Standards Types of Computers Wireless Computing World Wide Web — www.webopedia.com/internet.html
3. Most traditional communications media, such as telephone and television services, are reshaped or redefined using the technologies of the Internet, giving rise to services such as Voice over Internet Protocol ( VoIP) and IPTV. Newspaper publishing has been reshaped into Web sites, blogging, and web feeds. The Internet has enabled or accelerated the creation of new forms of human interactions through instant messaging, Internet forums, and social networking sites. — en.wikipedia.org/wiki/Internet
4. The origins of the Internet reach back to the 1960s when the United States funded research projects of its military agencies to build robust, fault- tolerant and distributed computer networks. This research and a period of civilian funding of a new U. S. backbone by the National Science Foundation spawned worldwide participation in the development of new networking technologies and led to the commercialization of an international network in the mid 1990s, and resulted in the following popularization of countless applications in virtually every aspect of modern human life. -http://en.wikipedia.org/wiki/Internet
5. The Internet today is a widespread information infrastructure, the initial prototype of what is often called the National ( or Global or Galactic) Information Infrastructure. Its history is complex and involves many aspects — technological, organizational, and community. And its influence reaches not only to the technical fields of computer communications but throughout society as we move toward increasing use of online tools to accomplish electronic commerce, information acquisition, and community operations. — www.isoc.org/internet/history/brief.shtml

Search wave


Следующий сервис реализовал попытку построить диалоговый режим работы с поддержкой контекста беседы. Поскольку каждая ветвь обсуждения была похожа на волну в известном сервисе то и назван он был Search wave (newisearch.com/wave).
Search wave

Search summary


Последняя в данной статье попытка оптимизации поиска — Search summary (newisearch.com/sum), который вместо увеличения количества поисковых результатов уменьшает их до обозримого количества (да простят меня оптимизаторы), нарезая их по темам. Среди основных возможностей:
  • Разбивка поисковых результатов на некоторое количество кластеров, по несколько сниппетов в рамках каждого, с навигацией между ними.
  • Возможность «провалиться» внутрь выбранного кластера (drill down) — выполнить новый поиск с учетом текущих ключевых слов
  • Дальнейшее развитие проекта: справа вместо сниппетов выводить саммари

Search summary

На этом наши доморощенные попытки не заканчиваются, следующая веха — семантический поиск. Но это уже другая история.
Теги:
Хабы:
Всего голосов 47: ↑39 и ↓8+31
Комментарии51

Публикации

Истории

Ближайшие события

15 – 16 ноября
IT-конференция Merge Skolkovo
Москва
22 – 24 ноября
Хакатон «AgroCode Hack Genetics'24»
Онлайн
28 ноября
Конференция «TechRec: ITHR CAMPUS»
МоскваОнлайн
25 – 26 апреля
IT-конференция Merge Tatarstan 2025
Казань