Обновить
25.12

Поисковые технологии *

От AltaVista до Яндекса

Сначала показывать
Порог рейтинга
Уровень сложности

Курс “Введение в информационный поиск” и немного истории

Время на прочтение3 мин
Охват и читатели5.6K

Меня зовут Павел Браславский, я научный сотрудник JetBrains Research и доцент Питерской Вышки.


Осенью прошлого года я после большого перерыва прочитал курс “Введение в информационный поиск”, на этот раз — для студентов академических программ JetBrains в Питерской Вышке и ИТМО. Comeback получил продолжение — зимой я прочитал мини-курс с обзором моделей информационного поиска и подходов к оценке для сотрудников Tinkoff, а весной — обзорную лекцию про информационный поиск в рамках курса по обработке естественного языка. В этой статье я кратко расскажу о курсе и его “исторических предпосылках”.


image

Читать дальше →

Как найти нужный видос в груде видеофайлов? Проект «Фабула»

Время на прочтение2 мин
Охват и читатели3.3K
image

Если человеку далеко за 20, то у него уже скопилась огромная фильмотека своей жизни, а также видеозаписей от друзей, родственников, с места работы… Найти там кого-то или что-то конкретное уже невозможно. Недавно готовил видео подборку на юбилей дочери – потратил неделю. Средства массовой информации тем более перегружены видеоархивами. И каждый день в мире появляются миллионы терабайт видеоконтента. И это в эпоху BIG DATA.
Читать дальше →

Как сделать поиск по документам, накопленным почти за 100 лет. Опыт НПО Энергомаш и ABBYY

Время на прочтение11 мин
Охват и читатели9.9K
Многие знают, что ABBYY занимается обработкой и извлечением данных из разных документов. Но у наших продуктов есть и другие интересные возможности. В частности, с помощью решения ABBYY Intelligent Search можно быстро и удобно искать информацию по смыслу в электронных документах из корпоративных систем. Этим уже пользуются крупные российские компании, например, производитель ракетных двигателей АО «НПО Энергомаш».

Многолетняя практика показывает, что время вывода космических двигателей на рынок от момента начала работ составляет от 5 до 7 лет. В то же время для удержания лидирующих позиций необходимо сокращать сроки разработки и изготовления до 3 – 4 лет. Кроме того, усиление конкуренции привело к необходимости существенного снижения стоимости выпускаемых двигателей на 30 – 50%.

Указанных показателей невозможно достигнуть без внедрения современных цифровых технологий. Наиболее передовые компании используют инновационные подходы не только на всех стадиях производства, но и на всех стадиях жизненного цикла их изделий. Чем больше компании уходят в цифру, тем острее становится вопрос: как использовать большие данные с максимальной для себя выгодой?

За 90 лет работы НПО Энергомаш накопил вековой объем документов (как бумажных, так и электронных) с ценной информацией о наработках испытателей и конструкторов. Большая часть документов уже хранится в информационных системах компании (ИС). Согласно исследованию IDC, в среднем сотрудники крупных организаций пользуются 5-6 внутренними ИС. Около 36% времени в среднем уходит на поиск информации – в масштабах крупной компании это тысячи рабочих часов в день.

Сегодня мы расскажем, как помогли НПО Энергомаш создать корпоративную интеллектуальную информационно-поисковую систему (КИИПС) на базе ABBYY Intelligent Search – такую же удобную и быструю, как популярные поисковики.
Читать дальше →

Как анализ поисковых запросов в Google позволяет выявлять очаги COVID-19 раньше, чем это удается органам власти

Время на прочтение7 мин
Охват и читатели8.5K
Аносмия — отсутствие обоняния — это симптом COVID-19.

В соответствии с данными, полученными от 2,5 миллионов пользователей приложения для изучения симптомов COVID-19, разработанного в Королевском колледже Лондона, две трети пользователей, у которых выявлено заболевание, сообщали об аносмии. При этом о том же симптоме сообщала лишь пятая часть тех, у кого заболевание выявлено не было.



А тем временем десятки тысяч человек ежедневно обращаются к Google за ответом на вопрос о том, почему они внезапно перестали ощущать запахи.

Есть ли корреляция между поисковым запросом «I can’t smell» («Я не чувствую запахи») и количеством заражений COVID-19? Да, такая корреляция есть.
Читать дальше →

Тайна личности покупателя, оставляющего за собой тысячи корзин с покупками в интернет-магазинах

Время на прочтение5 мин
Охват и читатели12K

Продавцы часто сталкиваются с покупателем по имени Джон Смит, добавляющим товары в корзину, а потом уходящим из магазина без покупок; «ситуация начала выходить из-под контроля»



Что Джон Смит добавил в корзину в магазинах Comfort House и FinnBin Inc.

Джон Смит начал делать покупки в прошлую среду и не останавливается уже несколько дней.

Он зашёл в интернет-магазин автозапчастей, где положил в корзину рычаг поворотника, аварийный фонарик, и пару десятков других товаров. Затем он перепрыгнул к продавцу товаров для дома, где заказал ещё десяток вещей, включая рамки для фотографий, таблички для адресов, вешалку для полотенец и почтовый ящик. На сайте, где продаются коробки-колыбельки для младенцев, популярные в некоторых странах (например, в Финляндии), он заказал по штуке каждого вида наборов одежды для младенцев, от $80 до $500.

Когда этот покупательский кутёж, длившийся почти 48 часов, закончился, Джон Смит сделал то же самое, что и всегда – ушёл, ничего не купив.

Более года интернет-магазины, продающие разнообразные товары, от каяков до ключниц, терялись в догадках по поводу загадочного покупателя с обобщённым именем, бросившего тысячи корзин с покупками. И в каждой корзине был только один предмет.
Читать дальше →

О том, что происходит, когда в поиске Google используют слово «vs»

Время на прочтение7 мин
Охват и читатели20K
Случалось у вас такое: ищете что-нибудь в Google и вводите после искомого слова «vs», надеясь на то, что поисковик автоматически предложит вам что-то, немного похожее на то, что вам нужно?


Ввод «vs» после искомого слова

Со мной такое бывало.

Как оказалось, это — большое дело. Это — приём, который, при поиске альтернативы чему-либо, способен сэкономить массу времени.
Читать дальше →

Прощай, Google! 15 Альтернативных поисковиков, которые не шпионят, а сажают деревья и раздают воду

Время на прочтение5 мин
Охват и читатели295K


Аве Кодер!

В этой статье речь пойдет о крутых инди поисковиках, которые могут составить конкуренцию поисковым гигантам, а также удовлетворить вкусы как утонченного мусьё, так и идейного борца за личную жизнь.
Читать дальше →

Долгосрочное хранение данных в Elasticsearch

Время на прочтение11 мин
Охват и читатели26K


Меня зовут Игорь Сидоренко, я техлид в команде админов, поддерживающих в рабочем состоянии всю инфраструктуру Домклик.


Хочу поделиться своим опытом в настройке распределённого хранения данных в Elasticsearch. Мы рассмотрим, какие настройки на нодах отвечают за распределение шардов, как устроен и работает ILM.

Много грязных технических подробностей

От эвристик до машинного обучения: история саджеста в Яндекс.Браузере

Время на прочтение7 мин
Охват и читатели13K


Давненько я ничего не рассказывал о Яндекс.Браузере и Chromium, а ведь интерес к этой теме на Хабре был нешуточный. Пора исправляться. Сегодня хочу поднять тему подсказок, которые мы видим под адресной строкой по мере вводе текста (этот блок ещё называют саджестом). Об этом почти никто не задумывается, но их работа исторически основана на ручных эвристиках и константах. Недавно с помощью коллег из поиска Яндекса нам удалось применить ML-ранжирование к этим подсказкам. Получилось не с первого раза, но результат того стоил.

Для лучшего погружения в контекст начнём с истории. Помните ли вы первый браузер в мире? Тот самый, который создал Тим Бернерс-Ли. Честно говоря, и я не помню, но хорошие люди сделали веб-версию для любопытных. Этот браузер умел отображать текст… и всё. Даже картинки на старте не поддерживал. А ещё там не было адресной строки в привычном для нас месте. Сайты открывались через меню, как документы в офисном редакторе. При этом было важно вводить точный адрес желаемой страницы. Забыли про http:// в начале? Получите Bad request. Никакого дружелюбия к пользователям не требовалось, потому что пользователями выступали учёные и технари.

Но затем интернет пришёл в дома «обычных» пользователей. Интерфейсы стали упрощаться: адресная строка поселилась у всех на виду, а рядом с ней добавили ещё одну — для поисковых запросов. Браузеры научились не только подставлять http://, но и подсказывать людям адреса уже посещённых страниц или введённые ранее запросы.

Затем в Chrome адресную строку объединили с поисковой — так родился омнибокс, который умел переваривать как адреса, так и запросы. Причём саджест тоже стал единый. Браузерам пришлось учиться ранжированию подсказок. Поставить на первое место сайт из истории? Или из закладок? Или сходить в облако и предложить окончание запроса? Или оставить WYT (What You Typed) и отправить в поиск?

Читать дальше →

Найдётся всё, но не то, что ты ищешь

Время на прочтение3 мин
Охват и читатели7.3K
Доброго времени суток, друзья!

Мне 22 года, я студент магистратуры. Всю сознательную жизнь я пользовался поисковиком Яндекса. Но объём информации на стартовой странице поисковика достиг таких размеров, что я решил поменять внешний вид стартовой страницы. Я захотел оставить только строку поиска и больше ничего лишнего. Мне понадобилось достаточно много времени, чтобы разобраться в настройках поисковой страницы Яндекса. Разумеется, это меня возмутило и натолкнуло на мысль разобраться с тем, стартовая страница какой поисковой системы заточена помочь пользователю найти то, для чего он зашёл в интернет, а какая хочет максимально отвлечь внимание пользователя на сторонний информационный поток и собственные сервисы.
Читать дальше →

Как мы учим Яндекс отвечать на вопросы и экономим пользователям 20 тысяч часов в сутки

Время на прочтение6 мин
Охват и читатели9.7K


Когда мы вводим запрос в поисковую строку, то ищем информацию, а не ссылки. Более того, зачастую нам требуется короткое предложение или общеизвестный факт. К примеру, [формула объёма усечённой пирамиды] на всех сайтах одинакова — ссылки не нужны, достаточно сразу дать ответ.

Быстрыми (фактовыми) ответами сейчас никого не удивить, но мало кто знает, как именно они формируются, чем различаются и что важного произошло в этой области за последнее время. Меня зовут Антон Иванов. Сегодня вместе с моим коллегой Михаилом Агеевым dminer мы расскажем историю ответов в поиске и поделимся некоторыми подробностями, о которых раньше нигде не говорили. Надеюсь, будет полезно.

Читать дальше →

Оценка качества кластеризации: свойства, метрики, код на GitHub

Время на прочтение11 мин
Охват и читатели49K

Кластеризация — это такая магическая штука: она превращает большой объём неструктурированных данных в потенциально обозримый набор кластеров, анализ которых позволяет делать выводы о содержании этих данных.


Приложений у методов кластеризации огромное количество. Например, мы кластеризуем поисковые запросы для того, чтобы повышать обобщающую способность алгоритмов ранжирования: любая статистика, вычисленная по группе похожих запросов, надёжнее той же статистики, вычисленной для одного отдельного запроса. Кластеризация позволяет повышать качество на запросах с редко встречающимися формулировками. Другой понятный пример — Яндекс.Новости, которые автоматически формируют сюжеты из новостных сообщений.


В далёком 2013 году мне повезло поучаствовать в разработке очень сложного алгоритма кластеризации. Требовалось с очень высоким качеством кластеризовать сотни тысяч объектов и делать это быстро: за десятки секунд на одной машине. Первым делом нужно было построить систему оценки качества, и в этой статье я расскажу именно о ней.



Читать дальше →

Как COVID-19 может изменить поисковую выдачу Google навсегда?

Время на прочтение7 мин
Охват и читатели1.7K

Новая "липкая" функциональная панель на левой стороне страницы может решить несколько проблем, с которыми Google мог бы столкнуться в будущем.


Перевод статьи Mordy Oberstein — Head of Marketing компании Rank Ranger, которая занимается генерацией SEO-отчетов, — в которой он излагает свои мысли по поводу того, как текущие изменения страницы с результатами поиска могут повлиять на пользовательский опыт в будущем. И на выборы в Америке, куда без них :)
Далее весь текст излагается от лица автора.


То, что начиналось как обычная панель предупреждений, превратилось в самый емкий набор информации из первоисточников среди всех, которые бывали на первой странице результатов поиска Google. Отображение информации о COVID-19 это не только доступный источник информации, но и то, что может остаться в выдаче… навсегда!

Читать дальше →

Ближайшие события

Как мы учились рекомендовать фильмы и почему не стоит полагаться только на оценки

Время на прочтение8 мин
Охват и читатели19K


Представьте, что вы хотите провести вечер за просмотром фильма, но не знаете, какой выбрать. Пользователи Яндекса часто оказываются в такой же ситуации, поэтому наша команда разрабатывает рекомендации, которые можно встретить в Поиске и Эфире. Казалось бы, что тут сложного: берём оценки пользователей, с их помощью обучаем машину находить фильмы, которым с высокой вероятностью поставят 5 баллов, получаем готовый список фильмов. Но этот подход не работает. Почему? Вот об этом я сегодня и расскажу вам.
Читать дальше →

Как SEO-оптимизация и алгоритмы Google уничтожили настоящий интернет

Время на прочтение5 мин
Охват и читатели59K
Примечание от переводчика: этот текст — перевод-компиляция двух небольших англоязычных заметок, которые автор почему-то разделил на два разных текста. Я уверен, что логически они связаны и представляют некоторую ретроспективную ценность. В первую очередь тем, что оспаривают устоявшееся мнение о том, что раньше интернет был похож на бурлящий котел, первичный бульон, а сейчас он — стройный, понятный и с каждым годом становится все лучше. Конечно, местами автор перегибает палку, но во многом с ним сложно не согласиться. Текст достаточно эмоционален, что я, конечно же, попытался максимально передать и адаптировать в ходе перевода. Приятного чтения.



Как SEO-оптимизация уничтожила интернет


В промежутке между 1998 и 2003 годом поиск в Google был просто волшебным. Я помню, как вводил какую-то смутную комбинацию, типа «oil mother's milk» и в итоге попал на страницу Wired с интервью Томаса Голда, астрофизика, который рассказывал о том, что залежи углеводородов (oil) пополняются за счет давления внутри геологических пластов.

Если вы сегодня ищете что-то техническое, конкретное, академическое или вообще — некоммерческое, то удачи вам. Лучшая в мире информационно-поисковая система превратилась в нечто, напоминающее Digg эры 2006 года: индексы популярности контролируются небольшим количеством финансово мотивированных игроков. Они называют себя «оптимизаторами».
Читать дальше →

Кластер Elasticsearch на 200 ТБ+

Время на прочтение14 мин
Охват и читатели26K


С Elasticsearch сталкиваются многие. Но что происходит, когда хочешь с его помощью хранить логи «в особо крупном объёме»? Да ещё и безболезненно переживать отказ любого из нескольких дата-центров? Какой стоит делать архитектуру, и на какие подводные камни наткнёшься?


Мы в Одноклассниках решили при помощи elasticsearch решить вопрос лог-менеджмента, а теперь делимся с Хабром опытом: и про архитектуру, и про подводные камни.

Читать дальше →

Как мы улучшили Умный поиск на hh.ru в 2019 году: инфографика

Время на прочтение2 мин
Охват и читатели6.3K
На hh.ru сейчас более 44 миллионов резюме и около 601 тысячи вакансий. Их нужно соотнести друг с другом так, чтобы по запросу соискателя ему мгновенно выдавались в топе результатов поиска те вакансии, которые наиболее подходят именно ему, а по запросу работодателя — наиболее подходящие для конкретной вакансии резюме. Сделать это помогает искусственный интеллект — наш Умный поиск. Благодаря ему соискатели и работодатели тратят меньше времени и усилий, чтобы найти друг друга.


Читать дальше →

Лайфхак для быстрого попадания в Zero-click поисковой выдачи

Время на прочтение4 мин
Охват и читатели4.3K
На просторах Хабра встретилась статья: Zero-click выдача и On SERP SEO: как попасть на нулевую позицию в Яндексе и Google, в которой говорится о попадания не просто в ТОП, а прямо на самую нулевую позицию поисковой выдачи. А так же приводится внушительный список рекомендаций SEO активностей, чтобы достичь желаемого результата.

Поборов некоторые сомнения, я все же решил поделиться случайно найденным простым лайфхаком для попадания в ТОП или даже в Zero-click поисковой выдачи по отдельным запросам без сложного и самое главное долгого тюнинга сайта.

Сразу хочу предупредить, данный способ подходит не всем, так как связан с разработкой мобильного приложения и не масштабируется на большое число поисковых запросов.

Тем не менее, если описанный под катом способ и окажется не применимым для постоянного использования, надеюсь, что его вполне можно использовать как дополнительный инструмент SEO.
Читать дальше →

Как объединить две платформы в одну и не обидеть пользователей. Опыт разработчиков Яндекс.Кью

Время на прочтение11 мин
Охват и читатели10K


В прошлом году к Яндексу присоединился сервис TheQuestion. На тот момент уже был схожий сервис вопросов и ответов — Яндекс.Знатоки. У Знатоков была большая аудитория и много интересных вопросов, но не хватало экспертов, которые могли давать качественные ответы на эти вопросы. TheQuestion же, наоборот, имел сильное сообщество экспертов, но ему не хватало интересных вопросов. Логичным шагом было объединить два сервиса, чтобы взять лучшее у каждого из них. Но как это сделать, если у каждого сервиса своя технологическая база, контент и пользователи?

Сегодня я расскажу о том, как наша команда решила эту задачу с технологической точки зрения. Вы узнаете, какие варианты объединения мы рассматривали и какой в конце концов выбрали. Расскажу про «подменное API», миграцию баз данных, объединение профилей и тестирование бэкенда. А ещё — про ночь переезда без права на ошибку. Вы увидите, что скучать нам не пришлось.
Читать дальше →

Когда фильтр Блума не подходит

Время на прочтение9 мин
Охват и читатели16K


Я ещё с университета знал о фильтре Блума — вероятностной структуре данных, названной в честь Бёртона Блума. Но у меня не было возможности её использовать. В прошлом месяце такая возможность появилась — и эта структура буквально очаровала меня. Впрочем, вскоре я нашёл у неё некоторые недостатки. В этой статье — рассказ о моей краткой любовной связи с фильтром Блума.
Читать дальше →

Вклад авторов