Поисковые технологии *

От AltaVista до Яндекса

СтатьиПостыНовостиАвторыКомпании

mr-pickles 26 авг 2024 в 08:33

Как в Netflix сделали поиск по федеративному графу

11 мин

2.3K

Блог компании Wunder FundПоисковые технологии * Программирование * Алгоритмы *

Перевод

За последние несколько лет те, кто занимается в Netflix направлением Content Engineering, перевели множество служб компании на использование федеративной платформы GraphQL. Этот процесс продолжается и сегодня. Применение федерации GraphQL даёт командам, отвечающим за различные предметные области, новые возможности. Теперь они могут, независимо от других команд, создавать и использовать собственные графовые службы, относящихся к сфере их деятельности (Domain Graph Service, DGS). Команды, кроме того, могут связывать свои предметные области с другими областями в унифицированной схеме GraphQL, доступ к которой даёт федеративный шлюз.

Давайте, в качестве примера, рассмотрим три главнейшие сущности этого графа.

+12

DiTy 7 авг 2024 в 05:15

Семантический поиск (homemade)

Средний

127 мин

8.5K

Поисковые технологии * Python * Машинное обучение * Natural Language Processing *

Туториал

Из песочницы

Основой семантического поиска может являться ML задача Sentence Similarity, а если быть еще конкретнее, то это Semantic Textual Similarity. Модели, обученные под эту задачу, способны оценивать насколько близки предложения по своему смыслу. Всё, что нам дальше остается, так это засунуть модель в некоторую поисковую систему...

Но тут давайте по порядку

+11

yuzhaninaanya 2 авг 2024 в 10:25

Как мы апгрейднули поисковик в приложении Купера с помощью fastText и XGBRanker

5 мин

1.5K

Блог компании КуперПоисковая оптимизация * Машинное обучение * Разработка под e-commerce * Поисковые технологии *

Кейс

Привет, Хабр! Меня зовут Аня Южанина, я работаю ML-инженером в Купере (ex-СберМаркет). Сегодня я расскажу о межретейлерном поиске. Это когда вы ищете какой-то товар и Купер показывает этот товар в ассортименте разных ретейлеров. Зачем вообще нужен такой поиск и как внедрить умное ранжирование магазинов?

Xcom-shop 30 июл 2024 в 10:26

OpenAI представила прототип поисковика SearchGPT, который может убить Google

Простой

4 мин

5.4K

Блог компании Группа компаний X-ComБудущее здесьИскусственный интеллектПоисковые технологии *

Туториал

В мире технологий и искусственного интеллекта произошло значительное событие: компания OpenAI анонсировала запуск SearchGPT - прототипа новой поисковой системы, основанной на передовых моделях ИИ. Ее запуск может стать поворотным моментом в индустрии поисковых систем, бросив вызов Google и другим традиционным поисковикам.

SharplEr 28 июл 2024 в 11:19

Дизайн встраиваемой базы данных для ANN запросов: MusyaDB

Сложный

23 мин

4.5K

Поисковые технологии * Анализ и проектирование систем *

Я решил задизайнить встраиваемую базу данных. Это даст вам почувствовать вкус настоящего инженерного искусства. Статья получилась размером с небольшую книгу и разбивается на две больших статьи. В первой части мы поймем с чего вообще начинается дизайн таких систем, выберем алгоритмы и модель вычислений.

+20

Giardo911 25 июл 2024 в 16:00

ElasticSearch — поиск последовательности в тексте

Средний

21 мин

4.7K

Блог компании Т-БанкПоисковые технологии * Программирование *

Туториал

Привет! На связи Аркадий из Т-Банка, мы по прежнему делаем TQM, и в этой статье покажу, как мы решили задачу с поиском последовательностей в тексте коммуникаций. Это работает как на простых цепочках из словосочетаний по порядку, так и на сложных кейсах — со временем фразы, каналом «клиент — оператор». Мы по прежнему работаем с ElasticSearch, оставляя возможность “накрутить” на поиск по тексту такие вещи как RAG, LLM и другие модные технологии.

Несколько ограничений для сегодняшней задачи:

- Нелинейное возрастание сложности запроса при увеличении количества фраз. Поэтому предел у нас 4.

- Шаг тайминга мы выбрали 5 секунд. После каждой фразы ставим метку времени или несколько меток, если фраза заняла больше 5 секунд. Если сделать шаг слишком мелким это позволит искать более точно, но замусорит наше поле метками времени. Кажется, это тот момент когда лучше заранее договориться о требованиях.

А теперь к самому интересному. Добро пожаловать под кат!

+10

Alexysha 19 июл 2024 в 11:00

Разбираемся с Vespa. Часть 1

Средний

10 мин

1.6K

Блог компании SM LabJava * Программирование * Поисковые технологии *

Туториал

Эта статья открывает серию из трёх материалов, посвящённых работе с поисковой системой хранения данных Vespa.

Из этой статьи вы узнаете:

1) Как настроить конфигурацию Vespa.

2) Как запустить сервер конфигурации Vespa в Docker.

3) Как выглядит структура схемы данных.

4) Как выполнить фильтрацию полей в результатах поиска.

5) Как отключить валидацию схемы данных и файла конфигурации для локальной отладки.

+10

A1Ivan 19 июл 2024 в 03:35

Рекомендации нашей мечты: Как «Баннерная крутилка» Яндекса делает 700 тысяч RPS и подбирает для вас рекламу

Простой

2 мин

1.2K

Поисковые технологии * Контекстная реклама * Искусственный интеллект

Мнение

Зачем бариста земснаряд, а электромонтеру перкуссионный массажёр? Как так получается, что стоит только подумать об отпуске, как все баннеры предлагают путёвки в Дагестан? И почему после одного-единственного запроса о поворотниках для BMW ещё месяц продолжают крутиться объявления о покупке б/у запчастей? За всё это отвечает «Баннерная крутилка». Сервис обрабатывает 99% запросов всего за 200 миллисекунд, использует ML и серьёзно экономит ресурсы компании.

И вот, как это всё работает

asuleykin 16 июл 2024 в 05:07

Как мы делали умного помощника: Use Case внедрения умного чат-бота на основе подхода «Карта знаний» и LLM GigaChat

Средний

7 мин

5.3K

Поисковые технологии * Big Data * Искусственный интеллект

Кейс

Привет, Habr! Меня зовут Александр Сулейкин, архитектор Big Data решений, к. т. н. и CEO ИТ‑компании «ДЮК Технологии». Совместно с нашим экспертом по внедрению LLM, Анатолием Лапковым, мы подготовили статью по теме внедрения умного помощника в крупной некоммерческой организации. Под капотом — базовая модель от Сбера GigaChat, однако вся обвязка и подход к решению задачи — наши собственные. И это то, о чем пойдет речь в статье.

anna_vlasova 8 июл 2024 в 12:47

Я могу один раз ошибиться! Как разработать нейронку для исправления опечаток в поиске

Средний

6 мин

2.2K

Блог компании КуперИскусственный интеллектМашинное обучение * Поисковые технологии *

Кейс

Всем привет! Меня зовут Аня Власова, я работаю ML-инженером в Купере (ex СберМаркет), а именно — в команде поиска. Сегодня я расскажу про нашу нейросетевую модель, которая стои́т на страже корректных поисковых запросов. Вы наверняка найдете пару инсайтов в этой статье, если тоже разрабатываете сервисы поиска или просто интересуетесь языковыми нейронками.

+10

Bright_Translate 30 июн 2024 в 09:00

Итоги года соло-разработки поискового движка на средства гранта

Простой

5 мин

Блог компании RUVDS.comПрограммирование * Поисковые технологии * Поисковая оптимизация * Карьера в IT-индустрии

Кейс

Перевод

Год назад я в последний раз вышел из офиса. В тот день я сдал свой корпоративный ноутбук, попрощался с коллегами и, наконец, стал сам себе начальником.

Работа в течение последующего года спонсировалась грантом компании NLnet, который я как раз почти израсходовал. На текущий момент вся работа выполнена, и я отправил последний запрос на выделение средств.

Оба этих события дарят ощущение лёгкости, как в последний учебный день в школе.

Работа, спонсируемая грантом, заканчивается, но разработка поискового движка продолжается. Независимое финансирование этого проекта запланировано на гораздо больший срок. Если ничего не изменится, его разработка должна завершиться к концу 2026 года.

В текущей статье я решил поделиться своим опытом, оглянувшись на проделанную работу, а также прикинуть перспективы на будущее.

Читать дальше →

+28

btseytlin 21 июн 2024 в 13:49

Он победил LLM RAG: реализуем BM25+ с самых азов

Простой

18 мин

20K

Поисковые технологии * Python * Алгоритмы * Машинное обучение * Искусственный интеллект

Туториал

Привет, меня зовут Борис. Я автор телеграм канала Борис опять. Периодически мне на глаза попадается что-то интересное и я глубоко в этом закапываюсь. В данном случае это алгоритм поиска BM25+, который победил продвинутые методы векторного поиска на LLM.

Разберемся, что это за зверь и почему он так хорошо работает. В этой статье мы реализуем его на Python с нуля. Начнем с самого простого поиска, перейдем к TF-IDF, а затем выведем из него BM25+.

Статья подойдет тем, кто вообще ничего не знает о поиске, а более опытные ребята могут пролистать до реализации алгоритма.

Код доступен в Google Collab.

+39

alizar 17 июн 2024 в 09:00

Производительность Windows 11 «комически низкая», в интерфейс внедряют рекламу. Люди возвращаются на Windows 10

Простой

8 мин

65K

Блог компании RUVDS.comОперационные системыПоисковые технологии * Windows * Софт

Мнение

На рынке операционных систем происходит странное. Доля Windows 11 не растёт, как положено для новинки, а снижается. Согласно апрельской статистике Statcounter, после достижения рекордного показателя 28,16% в феврале 2024 года доля Windows 11 упала до 26,19% в апреле.

Тем временем доля Windows 10 за тот же период приблизилась к 70%. И это после того, как Microsoft объявила о завершении поддержки Windows 10 в октябре 2025 года.

Что вообще происходит?

Читать дальше →

+96

456

akurilov 16 июн 2024 в 12:29

Драма в Fediverse

Средний

5 мин

3.4K

Поисковые технологии * Законодательство в ITОблачные сервисы * Социальные сети

Репортаж

Привет Хабр. В свободное время я поддерживаю бесплатный сервис Авакари. Основная его функция - фильтрация сообщений из многих тысяч разных источников (RSS, Telegram, Fediverse, ...). В двух словах, вы определяете критерии поиска, Авакари "просеивает" то, что вам интересно и присылает результаты. Интеграция с Fediverse появилась недавно и содержала на своём пути нетехнологические грабли, к которым автор не привык. В этой статье я расскажу о них, возможно, мой опыт будет кому-то полезен.

+12

troitskii 8 июн 2024 в 12:18

Простыми словами про метрики в ИИ. Классификация. Confusion matrix, Accuracy, Precision, Recall, F-score, ROC-AUC

Средний

5 мин

14K

Поисковые технологии * Big Data * Открытые данные * Поисковая оптимизация * Искусственный интеллект

Туториал

Привет, Хабр! Меня зовут Александр Троицкий, я автор канала AI для чайников, и я расскажу про метрики классификации! Само собой, в интернете очень много материала про эти метрики, но я попробую описать их максимально простым языком с простыми примерами.

Зачем вообще нужны метрики в моделях ИИ? Чаще всего их используют, чтобы сравнивать модели между собой, абстрагируясь от бизнес метрик. Если вы будете смотреть только на бизнес-метрики (например, NPS клиентов или выручка), то можете упустить из-за чего реально произошло снижение или повышение показателей вашего бизнеса. Например, вы сделали новую версию модели лучше предыдущей (метрики модели лучше), но в то же самое время пришёл экономический кризис и люди перестали покупать ваш продукт (упала выручка). Если бы в этой ситуации вы не замеряли показатели модели, то могли бы подумать, что из-за новой версии модели упала выручка, хотя упала она не из-за модели. Пример довольно простой, но хорошо описывает почему нужно разделять метрики модели и бизнеса.

Для начала надо сказать, что метрики моделей бывают двух типов в зависимости от решаемой задачи:

1. Классификации - это когда вы предсказываете к чему именно относится то или иное наблюдение. Например, перед вами картинка и вы должны понять, что на ней, а ответа может быть три: это либо собачка, либо кошечка, либо мышка.

К одному из под-методов классификации относится бинарная классификация: либо единичка, либо нолик. То есть мы предсказываем либо перед нами кошечка, либо это не кошечка.

akurilov 7 июн 2024 в 10:56

Найти золото в потоке

Простой

3 мин

2.2K

Спам и антиспамПоисковые технологии * Веб-аналитика * Социальные сети

Перевод

Поиск в интернете - это поиск иголки в стоге сена. В случае поиска в потоке в режиме реального времени это скорее просеивание золота. Обычные ~~стиральные порошки~~ поисковые системы, вроде Google или Bing выполняют поиск только в прошлом. Поэтому они не помогут в поиске чего-либо, что может произойти в будущем. В этой статье я расскажу о том, как не пропустить важные новости, выгодные предложения, упоминания чего-либо или кого-либо.

+12

vombatina 1 июн 2024 в 13:30

Как сервер с моим проектом был удалён вместе с бэкапами

Простой

8 мин

52K

Хранение данных * ХостингРезервное копирование * Поисковые технологии * Восстановление данных *

Из песочницы

Не так давно на Хабре была небольшая волна постов и комментариев о том, как можно быстро и эффективно потерять данные своего проекта - неработающие или отсутствующие бэкапы, ошибки "железа" и прочие радости инженеров DevOps. Тогда я это всё прочитал с интересом - всегда же любопытно почитать про чужие факапы (про свои неинтересно). Через несколько дней я вдруг оказался среди таких же несчастных "уже делающих бэкапы".

Немного контекста - у меня есть свой домашний проект, которым я занимаюсь в свободное от работы время. Проект этот - UGC-сайт. Лента постов пользователей, если по-нашему. Вот он - https://vombat.su, вдруг кому-то интересно. Проект существует с сентября, есть своя аудитория, пара модераторов и довольно лояльные правила. На проекте нет рекламы, т.е. он некоммерческий (не считая донатов, которые иногда прилетают от благодарных пользователей). Даже антикоммерческий слегка, т.к. на него я только трачу - даже периодически мерч пользователям отправляю.

+131

222

PaaLadin 31 мая 2024 в 07:52

Не вырубишь топором… — ВКонтакте хранит удаленные публикации

Простой

2 мин

22K

Поисковые технологии * Тестирование веб-сервисов * VK API * Социальные сетиИнформационная безопасность *

Аналитика

Некоторые изменения в законодательстве и инцидент с Алексеем Вишней заставили многих пользователей соц.сетей тщательно почистить свои странички от старых публикаций. Но удаляются ли на самом деле крамольные высказывания с серверов или хранятся вечно и при запросе заинтересованных людей могут быть приобщены к делу?

Давайте проверим...

+33

akurilov 28 мая 2024 в 13:21

RSS лента результатов поиска в Awakari

Простой

1 мин

894

Социальные сетиData Mining * Облачные сервисы * Поисковые технологии *

Кейс

Awakari — бесплатный сервис поиска и фильтрации сообщений в режиме реального времени. Сервис ищет то, что интересно пользователю, среди тысяч сообщений в час из множества источников, таких как Fediverse, ленты RSS, каналы Телеграм.

Исторически Awakari интегрирован с Телеграм, используя его для идентификации пользователя и уведомления о результатах. В дополнение к Телеграм, теперь также доступны:

dariazapekina 24 мая 2024 в 12:22

Поиск без границ: путь к векторному поиску в Uzum Market

Средний

11 мин

3.9K

Блог компании UzumМашинное обучение * Поисковые технологии *

Кейс

Привет, с вами снова Даша и Uzum Market. В прошлый раз мы глубоко погрузились в пайплайн работы поиска нашего маркетплейса, и я обещала вам вернуться с новостями о его улучшении. Так вот, время пришло, и сегодня мы поговорим про наш опыт внедрения векторного поиска!

+13

1 2 ...

5 6

8 9 ...

58 59

Поисковые технологии *

Как в Netflix сделали поиск по федеративному графу

Семантический поиск (homemade)

Как мы апгрейднули поисковик в приложении Купера с помощью fastText и XGBRanker

OpenAI представила прототип поисковика SearchGPT, который может убить Google

Дизайн встраиваемой базы данных для ANN запросов: MusyaDB

ElasticSearch — поиск последовательности в тексте

Разбираемся с Vespa. Часть 1

Рекомендации нашей мечты: Как «Баннерная крутилка» Яндекса делает 700 тысяч RPS и подбирает для вас рекламу

Как мы делали умного помощника: Use Case внедрения умного чат-бота на основе подхода «Карта знаний» и LLM GigaChat

Я могу один раз ошибиться! Как разработать нейронку для исправления опечаток в поиске

Итоги года соло-разработки поискового движка на средства гранта

Он победил LLM RAG: реализуем BM25+ с самых азов

Производительность Windows 11 «комически низкая», в интерфейс внедряют рекламу. Люди возвращаются на Windows 10

Ближайшие события

Драма в Fediverse

Простыми словами про метрики в ИИ. Классификация. Confusion matrix, Accuracy, Precision, Recall, F-score, ROC-AUC

Найти золото в потоке

Как сервер с моим проектом был удалён вместе с бэкапами

Не вырубишь топором… — ВКонтакте хранит удаленные публикации

RSS лента результатов поиска в Awakari

Поиск без границ: путь к векторному поиску в Uzum Market

Вклад авторов