Обновить
25.8

Поисковые технологии *

От AltaVista до Яндекса

Сначала показывать
Порог рейтинга
Уровень сложности

Как Яндекс перепридумал поиск для разработчиков

Время на прочтение9 мин
Количество просмотров39K

У вас бывало, что открываешь поиск, ищешь что-то по программированию и не находишь ответ? Тогда эта история для вас. 

Меня зовут Алексей Степанов, я руковожу службой исследований машинного обучения поиска Яндекса. Сегодня я расскажу непростую историю. Она про проблему, до решения которой у нас слишком долго не доходили руки. Из поста вы узнаете, почему стандартная метрика качества поиска не учитывала интересы разработчиков и как мы её улучшили. Расскажу про новую нейросеть CS YATI, обученную понимать таких же айтишников, как и мы. Ну и про грабли на нашем пути тоже расскажу, куда без них.

Этот пост основан на моём докладе с Data Fest 2022, но не во всём (мой коллега Максим Хурсанов @Maxim2207 существенно расширил историю).

Читать далее

Часть 4. Ищем матчи в Dota 2 по названиям роликов на YouTube с помощью BERT и OpenDota

Время на прочтение12 мин
Количество просмотров5.7K

Представьте, что с одной стороны у вас есть видео на YouTube с интересными моментами из матча по Dota 2. А с другой стороны база данных всех матчей. Как для видео найти соответствующую запись в БД? Этой задачей мы сегодня и займемся.

Читать далее

Как с помощью BERT организовать поиск похожих текстов

Время на прочтение5 мин
Количество просмотров6.9K

Что нужно, чтобы с помощью BERT организовать поиск похожих текстов, а также как можно решить задачу многоклассовой классификации нестандартным способом.

Читать далее

Персональное ранжирование на Авто.ру: как не потерять главный смысл поиска по параметрам

Время на прочтение9 мин
Количество просмотров6.4K


Поиск по базе объявлений — совсем не то же самое, что поиск по интернету. Он параметрический, а не полнотекстовый: вы можете с помощью фильтров однозначно определить, что вам нужно, сузив область поиска. Поэтому и ранжирование в нём, на первый взгляд, играет не настолько большую роль — казалось бы, документов или карточек в выдаче не так много, чтобы дополнительно их ранжировать. Но это справедливо для небольшой базы и только для одного поискового сценария.

В параметрическом поиске Авто.ру действует правило: незачем строить за пользователя предположения о том, что он имел в виду. Мы в любом случае покажем все объявления, соответствующие поисковым фильтрам в запросе. Роль движка ранжирования — отсортировать карточки так, чтобы наиболее релевантные для конкретного пользователя оказались выше, не более. Я работаю над этим уже несколько месяцев, сейчас расскажу об устройстве движка и первых результатах.
Читать дальше →

Как быстро реализовать поиск на корпоративном портале

Время на прочтение8 мин
Количество просмотров6.9K

Привет, меня зовут Антон Щербак, я разработчик корпоративного портала Selectel. Это внутренняя система, где можно узнать новости компании, поучаствовать в Selectel Game (это наша собственная геймификация рабочих достижений) и, конечно, найти необходимого коллегу или структуру.

Нас уже более 700, и иногда поиск человека превращается в выпуск ток-шоу «Жди меня». Поэтому у нас была задача сделать его более удобным и приводящим к нужному результату. Под катом рассказываю, к какому решению мы в итоге пришли и как реализовали.
Читать дальше →

Кратко об OData

Время на прочтение18 мин
Количество просмотров62K

Протокол OData (или Open Data Protocol) не часто встречается на практике. Чаще мы видим собственные решения по поводу проектирования RESTful API и тратим на это много времени. Но за долгое время существования REST, уже были собраны лучшие практики, которые слились в OData. На просторах интернета не много ресурсов для изучения. Давайте исправим это. В этой статье приведены основные варианты использования OData с примерами.

Что внутри?

Manticore — альтернатива Эластику на C++ с 21-летней историей

Время на прочтение53 мин
Количество просмотров31K

5 лет назад мы форкнули Manticore из open source версии некогда популярного open source поискового движка Sphinx 2.3.2. У нас было два пакетика травы, семьдесят пять ампул мескалина, три C++ разработчика, один саппорт-инженер, опытный пользователь, менеджер, мать пятерых детей, помогающая нам на полставки и гора багов, крэшей и технических долгов. И вот, по прошествии 5 лет и сотен новых пользователей мы готовы сказать, что Manticore можно использовать как альтернативу Elasticsearch и для полнотекстового поиска и для аналитики данных.

В этой статье хочется: вспомнить как всё начиналось и что было до SOLR и Elasticsearch, максимально объективно обрисовать текущую ситуацию, попытаться понять куда нам двигаться дальше.

Читать далее

Как работает быстрый текстовый поиск для WordPress

Время на прочтение7 мин
Количество просмотров7.9K

Много лет мы (команда Epsilon Web Manufactory) занимались разработкой сайтов и разных приложений на заказ, в основном это были проекты на базе популярного движка WordPress. И как правило самой сложной и интересной задачей всегда был полнотекстовый поиск. Если на сайте были только статьи и какие-то кастомные типы записей, содержащие заголовок и основной текст, то достаточно было использовать встроенный класс WP_Query, который с небольшой подстройкой входных параметров отлично справлялся с задачей. Но это было лет 10-12 назад.

Читать далее

Поисковик Bing ходит по всем приватным ссылкам из Outlook. И это проблема

Время на прочтение3 мин
Количество просмотров12K


Предисловие. Microsoft и другие компании в последнее время выступают против паролей. Призывают использовать более безопасные и удобные методы 2FA. Среди альтернативных вариантов — авторизация через «волшебные ссылки», то есть через почтовый ящик.

Один разработчик попытался реализовать такую систему, но напоролся на совершенно неожиданное препятствие… Оказалось, кто-то ходит по приватным одноразовым ссылкам до пользователя — и авторизуется вместо него! Вы уже догадались, кто это.

Далее слово автору.
Читать дальше →

Поиск Brave: 2.5 миллиарда запросов за первый год и запуск пользовательских фильтров ранжирования

Время на прочтение7 мин
Количество просмотров2.4K

Ровно год назад мы запустили наш поиск, чтобы дать возможность каждому отказаться от медвежьих услуг Большого Брата и воспользоваться конфиденциальной и непредвзятой альтернативой не только Google и Bing, но и провайдерам типа DuckDuckGo или Startpage, которые так или иначе сидят на плечах техгигантов. 

Теперь поиск Brave официально выходит из беты и представляет уникальную технологию создания собственных фильтров ранжирования для всех.

Читать далее

Почему идентификация лиц невозможна — так, как этого хочет заказчик?

Время на прочтение4 мин
Количество просмотров2.9K

Кто все эти люди и кто из них я?

Ща разберемся?

Как Яндекс Карты с помощью отзывов улучшают поиск организаций

Время на прочтение8 мин
Количество просмотров7.2K


Раньше Карты, Поиск и Алиса отвечали на запросы об организациях, во многом основываясь на данных от самих организаций. Это был нормальный компромисс, но всегда можно сделать лучше.

Теперь учитываются ещё и реальные отзывы людей. Тем самым запросы, по которым раньше выдача была менее релевантной, обрабатываются качественнее, и мы можем решить больше пользовательских задач. Давайте расскажу, как мы к этому шли, и покажу примеры.
Читать дальше →

Дискуссии в Brave Search: ответы от живых людей, а не SEO-спамеров

Время на прочтение4 мин
Количество просмотров1.6K

Когда люди ищут что-то в интернете, они хотят получить полезные, релевантные результаты, а не мусор, спам и белый шум. К несчастью, специалисты превратили «оптимизацию»‎ по поиску, SEO, в настоящую науку и большой бизнес. Результат? Страницы выдачи поиска от гугла и его друзей забиты рекламой и автоматизированным контентом (SEO-спамом) от рекламщиков, которые пытаются обмануть поиск и поднять рейтинг своих сайтов в поисковой выдаче.

Это нас не устраивает. Для борьбы с подобными махинациями мы запускаем новый мощный инструмент поиска Brave, под названием Дискуссии. 

Что это и как это работает?

Ближайшие события

Коллективное распознавание смысла

Время на прочтение37 мин
Количество просмотров4.9K

Предлагаемый материал является приложением в книге [1].

Современная цивилизация оказалась на перекрестке, на котором нужно выбрать смысл жизни. Из-за развития технологий большинство населения планеты может оказаться «лишним» - не востребованным в производстве ценностей. Есть и  другой вариант, когда каждый человек является высшей ценностью, абсолютной индивидуальностью и может быть незаменимо полезен в технологиях коллективного разума.

В восьмидесятых годах прошлого века задача создания научного направления «коллективный разум» была поставлена. Коллективный разум определяется ...

Читать далее

Чем кончилась история с нашим обращением в ФАС против Яндекса

Время на прочтение4 мин
Количество просмотров34K
Сегодня «Дело о колдунщиках» закрыто в ФАС.

Напомню, краткая предыстория была про то, что группа ИТ-компаний Рунета объединилась и обратилась в ФАС с вопросом, нормально ли, что поиск даёт больше преимуществ собственным юрлицам Яндекса. Мы хотели вернуть нейтральность поиска, чего, собственно, и удалось достичь в результате мирового соглашения.

Формальный результат — вот, политика интеграции с поиском, где партнёры Яндекса (то есть внешние компании) и Сервисы Яндекса имеют паритет. Ещё один интересный документ здесь.

Пара выдержек:
…обеспечение равного доступа всех Партнеров как в части объема предоставленной информации, так и в части визуального и функционального представления в поисковой выдаче, вне зависимости от того, являются ли они третьими лицами или Сервисами Яндекса, ко всем действующим и будущим форматам обогащения поисковой выдачи…
…осуществление ранжирования различных форм Партнерской интеграции на странице поисковой выдачи Поисковой системы на основании единых алгоритмов…
…недопустимость манипулирования результатами поисковой выдачи для преимущественного продвижения Сервисов Яндекса. При формировании результатов поиска собственные сервисы Яндекса отражаются на тех же условиях, в том же визуальном оформлении и по тем же правилам, что и сервисы третьих лиц;

Время покажет, как это будет работать на практике, но ниже я расскажу чуть больше деталей.
Читать дальше →

Как мы делали свой поиск в Ozon: эволюция архитектуры от SQL до O2

Время на прочтение16 мин
Количество просмотров33K

Привет, Хабр! Меня зовут Сергей, я руководитель команды поиска в Ozon. Сегодня я расскажу об эволюции наших поисковых систем: как всё начиналось более 20 лет назад с обычных SQL-запросов, как мы осваивали Sphinx и Elasticsearch и как сейчас наш собственный поисковый движок O2 на базе Apache Lucene выдерживает нагрузку в десятки тысяч RPS в сезон распродаж. Исторические хроники восстанавливались по воспоминаниям современников и представлены для полноты картины. Новейшая история описана на основе собственного опыта, поэтому подробностей будет на порядок больше. Поехали!

Читать далее

Алгебра текста без формул

Время на прочтение65 мин
Количество просмотров3.8K

Статья является рефератом Книги [1], основанной на представленных ранее публикациях [2], [3], [4] и [5].

Читать далее

Найти за полсекунды: сравниваем похожие фотографии

Время на прочтение10 мин
Количество просмотров24K

Привет, меня зовут Петр и я работаю в Badoo в команде биллинга. В этой статье я хочу поделиться своим опытом работы над пет-проектом по созданию хранилища фотографий с возможностью поиска дубликатов. Я расскажу, с каким багажом я вошел в этот проект, в чем заключалась задача и как её решал. В конце поделюсь результатами и почему я считаю, что это один из лучших проектов, которым я занимался. 

Однажды мои знакомые попросили сделать им хранилище изображений для их проекта по модерации внешних ресурсов. Условия: срок хранения до трех лет, фотографии при этом присылаются неравномерно, в среднем поток — 150.000 картинок в сутки.

Казалось бы, достаточно банальная задача. Если бы не еще одно условие: хорошо бы сопоставлять фотографии с уже имеющимися: искать дубликаты и помечать их. 

Читать далее

Успешное изобретение для Умного поиска hh.ru

Время на прочтение3 мин
Количество просмотров4K

Мы запатентовали собственную разработку для «Умного поиска» и вошли в число финалистов конкурса Роспатента «Успешный патент» где выявляют самые классные изобретения по итогам 2020-2021 годов. В конкурсе приняли участвовали еще 128 российских правообладателей.

Читать далее

Анонимно, пожалуйста

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров39K

В наше время проблема анонимности стоит очень остро, с каждым днем пользователи сети все больше стараются заботиться о своей цифровой гигиене и сохранения конфиденциальной информации таковой. Поэтому я решил сделать обзор популярных (и не очень) поисковиков, на сколько они соответствуют ожиданиям пользователей.

Читать далее

Вклад авторов