Обновить
25.12

Поисковые технологии *

От AltaVista до Яндекса

Сначала показывать
Порог рейтинга
Уровень сложности

Как работал компьютеризированный поиск за сорок лет до Google

Время на прочтение9 мин
Охват и читатели5.3K
Чарли Борн был специалистом по компьютеризированному поиску ещё за сорок лет до появления Google. Музей компьютерной истории недавно завершил каталогизацию его уникальной коллекции материалов, документирующих историю систем онлайн-поиска и информации, начиная с 1950-х годов.

Многие считают, что системы поиска и просмотра информации онлайн начали развиваться вместе с вебом в 1990-х, мгновенно перенеся нас от перебирания вручную пыльных карточных каталогов к выдаваемым за миллисекунду ответам современных поисковых движков. Те, кто давно знаком с компьютерами, могут припомнить пару более ранних компьютеризированных сервисов, например LexisNexis для журналистов и юристов или дорогостоящий Dialog.


LexisNexis

Поиск научных публикаций в Интернете. Часть 2. Где и как искать

Время на прочтение9 мин
Охват и читатели58K
Продолжение (начало – здесь)

1.3. Поисковые системы – специализированные и не очень

В общем случае результаты поиска в первую очередь зависят от поставленной задачи и корректности запроса. Но эти результаты чаще всего, с одной стороны,

а) избыточны
и с другой стороны — б) неполны.

К счастью, и авторы и издатели, как правило, заинтересованы в том, чтобы информация о публикациях индексировалась поисковиками, но тут есть нюансы: не всегда разрешается индексация содержимого pdf-файлов, и в некоторых случаях разрешена индексация сайтов только определёнными поисковиками (например, крупнейшая отечественная электронная библиотека elibrary.ru одно время запрещала для google индексацию большинства файлов).

Кроме всего прочего, результаты запроса зависят от порядка слов и от IP-адреса, с которого осуществляется поиск.

Если говорить о поиске публикаций, то вопрос «какой поисковой системой пользоваться» имеет один ответ – Google (это если не считать специализированные библиографические поисковые системы, о них ниже).

Во-первых, google достаточно полно индексирует содержимое Сети. Во-вторых, большое количество настроек расширенного поиска (в т.ч. с использование операторов) сильно облегчают работу. В третьих, как я уже указывал, содержимое пдф-файлов googl’ом индексируется даже в том случае, когда пдф состоит из изображений и текстовый слой в файле отсутствует.



Ка известно, в гугле любят пошутить. Вот такой у меня однажды вылез результат при попытке найти книгу Pander, C. H. (1830). Beiträge zur Geognosie des Russischen Reiches. St.Petersburg, Karl Kray. 150 S.
Читать дальше →

Поиск научных публикаций в Интернете. Часть 1. Что искать

Время на прочтение7 мин
Охват и читатели22K
Начну с небольшого эпиграфа:

As has often been pointed out, the advent of the internet has
forever changed how information and ideas are distributed

(Plotnik R.E., Paleont. Electr., vol.1, 2010,
palaeo-electronica.org/2010_1/commentary/mainstream.htm)

Я не случайно привёл в качестве эпиграфа отрывок из редакционной заметки в журнале Paleontologia Electronica – я палеонтолог, основной областью моих научных интересов являются изучение юрских отложений и встречающихся в них остатков головоногих моллюсков — аммонитов. Взяться за данный обзор я решил главным образом потому, что других обзоров такого типа мне не попадалось, и в то же время общение с коллегами и выступления перед ними укрепили меня в мысли, что грамотно использовать современные возможности поиска научной информации в сети Интернет умеют очень немногие. Ну а разместить всё это на хабре мне стало интересно в связи с тем, что c одной стороны здесь достаточно регулярно появляются заметки, каким-либо образом связанные с научными публикациями, а с другой стороны — здесь можно получить отклик от людей, связанных с совершенно другими научными направлениями и вообще от науки далёкими, что может дать мне возможность посмотреть на привычные вещи немного с иной стороны. Вполне возможно, что какие-то способы поиска публикаций, известные другим посетителям сайта я мог упустить, и в этом отношении тоже было бы полезно получить какой-нибудь отклик.
Читать дальше →

Как «Сумерки» навсегда испортили поиск картинок Google

Время на прочтение6 мин
Охват и читатели21K


Поучаствуйте со мной в эксперименте. При помощи поиска изображений Google мы будем искать разные времена суток. Откроем новое окно Google Chrome в режиме инкогнито, чтобы результаты не были искажены нашей историей поиска. В конце концов, это ведь научный эксперимент, и нам нужны наиболее точные результаты.

Для начала попробуем найти «sunrise» («рассвет»).
Читать дальше →

Делаем поиск в веб-приложении с нуля

Время на прочтение26 мин
Охват и читатели23K
В статье «Делаем современное веб-приложение с нуля» я рассказал в общих чертах, как выглядит архитектура современных высоконагруженных веб-приложений, и собрал для демонстрации простейшую реализацию такой архитектуры на стеке из нескольких предельно популярных и простых технологий и фреймворков. Мы построили single page application с server side rendering, поддерживающее просмотр неких «карточек», набранных в Markdown, и навигацию между ними.

В этой статье я затрону чуть более сложную и интересную (как минимум мне, разработчику команды поиска) тему: полнотекстовый поиск. Мы добавим в наш контейнерный рай ноду Elasticsearch, научимся строить индекс и делать поиск по контенту, взяв в качестве тестовых данных описания пяти тысяч фильмов из TMDB 5000 Movie Dataset. Также мы научимся делать поисковые фильтры и копнём совсем немножко в сторону ранжирования.

Читать дальше →

«Сбер» купил «Рамблер»: кому это выгодно?

Время на прочтение2 мин
Охват и читатели15K
image

«Сбер» стал единоличным владельцем «Рамблера», выкупив у Александра Мамута 45% компании. В прошлом году «Сбер» впервые купил акции компании, получив 46,5% и впоследствии увеличив свою долю. Теперь Сбербанк владеет 100% «Рамблера». Михаил Третьяк, руководитель IP/IT-практики Digital Rights Center считает, что эта покупка — очередной шаг к объединению российских IT-сервисов в одной структуре:
«В данной ситуации мы видим повторение практически «под копирку» опыта Китая — именно там крупнейшие корпорации неофициально подчинены государству, и без его ведома и разрешения не существовало бы ни AliExpress, ни Tencent, ни произошло бы превращения их в мегакорпорации путём скупки подобных активов. Невооружённым взглядом видно, что руководству России крайне импонирует китайская модель абсолютного присутствия государства в бизнесе IT-компаний, и в особенности в области контроля за данными граждан.
Читать дальше →

Как построить полнотекстовый поиск с помощью нейронных сетей

Время на прочтение8 мин
Охват и читатели16K

Почему с помощью обычного полнотекстового поиска сложно искать очень короткие документы и как быть, если хочется это сделать.


Читать дальше →

Монополии цифровых гигантов: кто защитит потребителей?

Время на прочтение4 мин
Охват и читатели9K
На этой неделе Минюст США подал иск против Google, обвинив компанию в монополии на поиск и поисковую рекламу. В иске утверждается, что Google злоупотребляет своим положением на рынке интернет-поиска и рекламы и подавляет конкурентов. Отличное продолжение темы, которую мы в прошлый раз обсуждали – об использовании интернет-поиска Яндексом для продвижения собственных сервисов.

То, что государственные органы начали на самом высоком уровне решать вопросы, связанные с монополизацией цифровых гигантов – хороший сигнал мировому IT-сообществу. Подходы к регулированию цифровой экономики обновляются, чтобы поставить во главу угла интересы потребителей (интересный пример – наушники от Apple 12 во Франции) и честную конкуренцию.

И в Европе, и в США, и в России степень недовольства действиями технологических гигантов может быть одинакова. Однако меры по регулированию различны. Что делать с монополией Яндекса? Теперь решение за ФАС.


Читать дальше →

Медленно, но верно: тайное влияние Яндекса на Рунет

Время на прочтение4 мин
Охват и читатели45K
Есть мнение, что Яндекс, занимая лидирующее положение на рынке интернет-поиска в России, не просто продвигает свои сервисы общедоступными способами. И что он с помощью «колдунщиков» задвигает на задние ряды сайты с поведенческими показателями лучшими, чем у собственных сервисов.

И что он, пользуясь доверием собственной аудитории, вводит пользователей в заблуждение и предлагает не самые релевантные сайты, а свои сервисы. А это лишает игроков рынка заметной доли прибыли, что сковывает, а подчас останавливает развитие этих онлайн-сервисов и, в целом, отрасли.

Разбираемся, так ли это. Пишите в комментарии, согласны ли вы с этим мнением.


Читать дальше →

Vespa лучше Elasticsearch для поиска пар среди миллионов мужчин и женщин

Время на прочтение20 мин
Охват и читатели3.5K


Неотъемлемой частью сайта для знакомств OkCupid являются рекомендации потенциальных партнёров. Они основаны на совпадении множества предпочтений, которые указали вы и ваши потенциальные партнёры. Как вы можете себе представить, существует множество вариантов оптимизации этой задачи.

Однако ваши предпочтения — не единственный фактор, влияющий на то, кого мы вам рекомендуем в качестве потенциального партнёра (или рекомендуем вас самого в качестве потенциального партнёра для других). Если бы мы просто показали всех пользователей, которые соответствуют вашим критериям, без какого-либо ранжирования, то список был бы совсем неоптимальным. Например, если не учитывать недавнюю активность пользователя, то вы можете потратить намного больше времени на общение с человеком, который не заходит на сайт. Кроме указанных вами предпочтений, мы используем многочисленные алгоритмы и факторы, чтобы рекомендовать вам тех людей, которых, по нашему мнению, вы должны увидеть.
Читать дальше →

WhatsApp, Telegram и Signal выдают телефонные номера всех пользователей

Время на прочтение7 мин
Охват и читатели59K


Синхронизация мессенджера с контактами из адресной книги (contact discovery) — очень удобная функция. Когда новый человек ставит приложение, то в него автоматически добавляется большой список контактов, а если кто-то впервые установил мессенджер, то уведомление об этом приходит всем его знакомым. К сожалению, данную функцию могут использовать государственные службы и другие злоумышленники для выслеживания людей. Существующие методы защиты пока не очень эффективны.

Масштаб утечек оценили специалисты из Вюрцбургского университета и Дармштадтского технического университета (Германия), который провели самое масштабное в истории исследование с краулингом телефонных номеров в трёх мессенджерах: WhatsApp, Telegram и Signal. Результаты неутешительные: WhatsApp и Signal сливают номера пользователей в большом масштабе.

Хотя у Telegram очень жёсткие лимиты на количество запросов к API, он тоже не полностью защищён.
Читать дальше →

Технология Apphost: альтернативная вселенная микросервисов в Яндексе

Время на прочтение6 мин
Охват и читатели26K

Когда-то поиск Яндекса представлял из себя бутерброд. Каждый его слой могли эффективно разрабатывать единицы людей. Однако верхний добавлял пикантности. Этот слой представлял из себя Apache с кучей Perl’овых модулей.

Поддерживать большой объём кода на стареющем языке программирования дорого и сложно, развивать — ещё дороже и сложнее. Так верхний слой Поиска оказался разделён на микросервисы, целую вселенную микросервисов. Как это обычно бывает, создавая что-то своё, мы получили нечто непохожее на всё, существующее снаружи.

Привет, Хабр. Меня зовут Святослав Фельдшеров. Я разрабатываю Apphost в поиске Яндекса. Добро пожаловать в нашу вселенную!

Подробнее про Apphost

Пишем движок полнотекстового поиска на Go

Время на прочтение8 мин
Охват и читатели21K
Полнотекстовый поиск — один из тех инструментов, которые мы используем практически каждый день, когда ищем какую-то информацию в интернете. Full-Text Search (FTS) — это метод поиска текста в коллекции документов. Документ может ссылаться на веб-страницу, газетную статью, сообщение электронной почты или любой структурированный текст.

Сегодня мы собираемся написать собственный движок FTS. К концу этой статьи он сможет выполнять поиск по миллионам документов менее чем за миллисекунду. Начнём с простых поисковых запросов, таких как «Выдать все документы со словом cat», а потом расширим движок для поддержки более сложных логических запросов.

Примечание: самым известным движком полнотекстового поиска является Lucene (а также Elasticsearch и Solr, построенные на его основе).
Читать дальше →

Ближайшие события

Текстовый индекс по котировкам в памяти на Go

Время на прочтение5 мин
Охват и читатели3.9K

Недавно понадобилось реализовать поиск по началу строки, по сути WHERE name LIKE 'начало%'. Это был поиск по названию биржевых символов (AAPL, AMZN, EUR/USD и пр.). Хотелось, чтобы поиск работал быстро, и не нагружал лишний раз БД. В итоге пришел к реализации поиска по дереву в памяти, об этом и расскажу.

Читать далее

Shodan — темный близнец Google

Время на прочтение7 мин
Охват и читатели78K

Источник
S in IoT stands for Security
Про Shodan уже не раз писали, в том числе и здесь. Я хочу предложить еще раз пробежаться по возможностям этого замечательного инструмента и принципам его работы. Сразу хочу оговориться, ситуация с этим поисковиком вполне классическая для исследователей в области информационной безопасности — инструмент может использоваться как с благими намерениями, так и сильно за чертой закона.

Disclamer:
Использование самого поисковика не является чем-то наказуемым. Успешный вход в незакрытую панель управления узла нефтяного терминала где-то в Сингапуре и эксперименты с открыванием заслонок — уже наказуемы. Могут прийти и постучаться недружелюбные люди. Поэтому будьте благоразумны и уважайте чужое пространство. Мы против применения Shodan для чего-то кроме исследовательских целей или анализа собственных систем.

Предлагаю еще раз пройтись по возможностям этого поисковика, особенностям его синтаксиса и попробовать найти что-то интересное. И давайте не будет печатать «Войну и Мир» на чужих сетевых принтерах.

Прокачиваем адресную строку браузера

Время на прочтение7 мин
Охват и читатели29K

С некоторых пор адресная строка не только отображает адрес текущей страницы но и позволяет открыть страницу поиска в разных поисковых системах. Но далеко не все сайты добавили OpenSearch чтобы можно было легко добавить внутренний поиск по сайту.


В первой части я расскажу как самостоятельно добавить поиск по сайту и другие сервисы. А во второй части расскажу какой сервис кроме поиска при помощи OpenSearch подсказок может организовать сайт.


OpenSearch — набор технологий, позволяющих веб-сайтам и поисковым системам публиковать результаты поиска в форматах, удобных для распространения и сбора.
Читать дальше →

Технология видео поиска «Video Color»

Время на прочтение10 мин
Охват и читатели20K

Немного о поиске


Когда мы говорим о поиске, то сразу представляем себе поисковую систему Google с формой для ввода текстовой строки и многие сотни результатов ссылок на найденные страницы. Однако задумаемся о предмете нашего поиска.

Что мы ищем?


  • Текст
  • Документы
  • HTML странички
  • Изображения
  • Аудио
  • Видео
  • Двоичные файлы

Для некоторых видов данных существуют специализированные поисковые системы. Например, существуют сайты специализирующиеся на поиске DLL файлов.

Поиск видео




Давайте рассмотрим поиск видео информации. Каким образом можно это сделать? Чисто теоретически?

  • По тексту
  • По изображению
  • По короткому видео фрагменту
  • По короткому аудио фрагменту
Читать дальше →

Нейросетевой визуальный поиск

Время на прочтение10 мин
Охват и читатели5.7K
История знает много примеров преждевременных открытий и изобретений. Хочу рассказать об одном из них.

Речь пойдет о визуальном поисковике, получившим первые западные венчурные инвестиции в области ИТ в России, построенном на основе активных семантических нейронных сетях. Под катом мы расскажем об его основных принципах работы и архитектуре.
Читать дальше →

В поисках свежести

Время на прочтение10 мин
Охват и читатели5.9K
20 марта 2010 года началось извержение вулкана Эйяфьядлайёкюдль в Исландии. 14 июля 2015 года межпланетная станция New Horizons передала на Землю фотографии Плутона. 15 апреля 2019 года случился пожар в соборе Парижской Богоматери. Что общего в этих случаях?



Каждое подобное событие сопровождается всплеском интереса со стороны пользователей интернета. Люди хотят не только прочитать о том, что произошло, но и взглянуть на фотографии. Они идут в поиск картинок и ожидают найти там свежие, актуальные снимки, которые могли не существовать ещё несколько часов назад. Интерес возникает неожиданно и за несколько дней падает почти до нуля.

Особенность ситуации в том, что обычные поисковые механизмы не заточены на подобный сценарий. Более того, критерий свежести контента противоречит другим важным свойствам хорошего поиска: релевантности, авторитетности и т. д. Нужны особые технологии, чтобы не просто находить новый контент, но и сохранять баланс в результатах.

Меня зовут Денис Сахнов, сегодня я расскажу о новом подходе к доставке свежего контента до Яндекс.Картинок. А мой коллега Дмитрий Кривоконь krivokon поделится подробностями о метриках и ранжировании свежих картинок. Вы узнаете о старом и новом подходе к оценке качества. А ещё мы напомним о YT, Logbroker и RTMR.

Читать дальше →

Кому рецепты для электронной коммерции? Для SAP Commerce и не только

Время на прочтение16 мин
Охват и читатели6.5K
Моё хобби ― автоматизация онлайн-ритейла. Уже много лет даже в свои выходные я не вылезаю из этого «болота». Да, наверное, это звучит дико и даже смешно. Как можно увлекаться таким скучным делом? — скажут одни. Что там увлекаться, это просто какая-то частная тема для уважающего себя архитектора ПО! — скажут другие.

Действительно, на первый взгляд, это, как говорится, недиссертабельная тема. Фактически, это сборная солянка из разных тем, тем или иным образом притащенных в e-commerce. И в итоге оказалась ровно тем, что я люблю: интеграция технологий.

И вот с 2016 я веду техноблог, hybrismart.com. Такая «хабра» в миниатюре, только на английском и с фокусом на близкую мне тему — разработку на SAP Commerce. У нас тут сформировалась небольшая компания из нескольких десятков тысяч авторов, но в блог пока что пишет только часть из них. Ну, хорошо, пишут пока немногие. Десяток. Но мы стараемся. В блоге уже накопилось под две сотни статей, преимущественно больших и очень больших на самые разные темы, тем или иным боком относящиеся к ecom. В существенной части это всё-таки персональный блог, поэтому отдуваюсь тут я, а не наша пиар-служба. Но это от души, правда.

Как легко догадаться из названия, hybrismart — про хайбрис (что это такое?). И почти все, кто его находит, знают о хайбрисе не понаслышке. Ну и наоборот: наверное, каждый разработчик на hybris хотя бы раз в блог заходил (конечно, не по доброй воли, нам гугл помогает!). Теперь вот и вы зашли. И чтобы вы там не потерялись, хочу провести небольшую экскурсию. Задавайте, пожалуйста, вопросы в самом конце.

Читать дальше →

Вклад авторов