Как стать автором
Обновить
19.28

Поисковые технологии *

От AltaVista до Яндекса

Сначала показывать
Порог рейтинга
Уровень сложности

Как работает поисковое ранжирование для миллионов объявлений Авито

Уровень сложностиСредний
Время на прочтение14 мин
Количество просмотров2.1K

Привет! Меня зовут Илья Валяев, я data science team lead поискового ранжирования в Авито. В статье расскажу, как у нас всё устроена система ранжирования, какие технологии используем и как именно улучшаем поисковые выдачи. 

Статья будет интересна ML-инженерам, которые владеют базовой теорией машинного обучения и хотят разобраться в том, как устроено поисковое ранжирование.

Читать далее
Всего голосов 20: ↑18 и ↓2+20
Комментарии6

Новости

Война за клики: Как позиции в Google влияют на CTR?

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров969

Вам точно нужен топ-10? Сколько кликов достаются 1 месту в поиске? Как было 10 лет назад и как влияют на кликабельность сниппеты? Исследование показателей кликабельности в Google на основе данных аналитической компании Advanced Web Ranking.

Читать далее
Всего голосов 4: ↑3 и ↓1+6
Комментарии4

SEO-продвижение: Как мы увеличили трафик на 88% в месяц и обошли Amazon

Уровень сложностиСредний
Время на прочтение20 мин
Количество просмотров6K

В этой статье рассмотрим одну важную тему, как SEO-оптимизация может помочь малому и среднему бизнесу конкурировать с крупными игроками, такими как Amazon. Здесь мы детально рассмотрим успешную стратегию, с помощью которой увеличился органический трафик клиента с 72,4 тыс. до 136,4 тыс. посетителей менее чем год, что позволило обогнать Amazon по ряду ключевых слов.

Читать далее
Всего голосов 13: ↑8 и ↓5+3
Комментарии4

Manticore + Laravel + Scout

Уровень сложностиСредний
Время на прочтение3 мин
Количество просмотров1.1K

Простая интеграция поискового движка Manticore Search с фреймворком Laravel при помощи Laravel Scout и неофициального драйвера manticore-scout-engine.

Подробности
Всего голосов 5: ↑5 и ↓0+8
Комментарии0

Истории

Как найти иголку в стоге сена? Или обозор Retrieval Algorithms

Уровень сложностиСредний
Время на прочтение12 мин
Количество просмотров1.8K

Появление трансформеров, а впоследствии LLM (Large Language Models) привело к активному распространению чат-ботов и различных ассистентов помогающих в получении информации или генерации контента. Но несмотря на то что LLM способны по запросу генерировать человекоподобные тексты, они подвержены галлюцинациям. Естественным кажется желание уменьшить количество не достоверных ответов. Для этого мы можем либо дообучить LLM на наших данных, либо использовать Retrieval Augmented Generation (RAG)

RAG - это способ генерации текстов на новых данных без дообучения модели, с помощью добавления релевантных документов в промпт модели. Документы для генерации ищутся с помощью retrieval системы, после чего объединяются в один промпт и подаются в LLM для последующей обработки. В этой статье я решил собрать информацию о всех наиболее известных и применяемых алгоритмах поиска, с описаниями и материалами для более глубокого изучения.

Читать далее
Всего голосов 4: ↑4 и ↓0+7
Комментарии0

Продолжение войны поисковиков. Давид и Голиаф, или борьба Google против ИИ-стартапов

Время на прочтение6 мин
Количество просмотров1.8K

Google вынужден войти в новую войну поисковых систем. Прямо как в начале нулевых. Но если раньше он был в позиции компании, которая дизраптит рынок за счет нового подхода, то теперь Google вынужден бороться с ИИ-стартапами, которые создают свои продукты для поиска информации. Колонка Джона Хермана для издания New York Magazine.

Читать далее
Всего голосов 5: ↑4 и ↓1+5
Комментарии1

Как в Netflix сделали поиск по федеративному графу

Время на прочтение11 мин
Количество просмотров2K

За последние несколько лет те, кто занимается в Netflix направлением Content Engineering, перевели множество служб компании на использование федеративной платформы GraphQL. Этот процесс продолжается и сегодня. Применение федерации GraphQL даёт командам, отвечающим за различные предметные области, новые возможности. Теперь они могут, независимо от других команд, создавать и использовать собственные графовые службы, относящихся к сфере их деятельности (Domain Graph Service, DGS). Команды, кроме того, могут связывать свои предметные области с другими областями в унифицированной схеме GraphQL, доступ к которой даёт федеративный шлюз.

Давайте, в качестве примера, рассмотрим три главнейшие сущности этого графа.

Читать далее
Всего голосов 7: ↑7 и ↓0+15
Комментарии0

Семантический поиск (homemade)

Уровень сложностиСредний
Время на прочтение127 мин
Количество просмотров2.2K

Основой семантического поиска может являться ML задача Sentence Similarity, а если быть еще конкретнее, то это Semantic Textual Similarity. Модели, обученные под эту задачу, способны оценивать насколько близки предложения по своему смыслу. Всё, что нам дальше остается, так это засунуть модель в некоторую поисковую систему...

Но тут давайте по порядку
Всего голосов 9: ↑9 и ↓0+14
Комментарии1

Как мы апгрейднули поисковик в приложении Купера с помощью fastText и XGBRanker

Время на прочтение5 мин
Количество просмотров972

Привет, Хабр! Меня зовут Аня Южанина, я работаю ML-инженером в Купере (ex-СберМаркет). Сегодня я расскажу о межретейлерном поиске. Это когда вы ищете какой-то товар и Купер показывает этот товар в ассортименте разных ретейлеров. Зачем вообще нужен такой поиск и как внедрить умное ранжирование магазинов?

Читать далее
Всего голосов 8: ↑8 и ↓0+12
Комментарии2

OpenAI представила прототип поисковика SearchGPT, который может убить Google

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров4.5K

В мире технологий и искусственного интеллекта произошло значительное событие: компания OpenAI анонсировала запуск SearchGPT - прототипа новой поисковой системы, основанной на передовых моделях ИИ. Ее запуск может стать поворотным моментом в индустрии поисковых систем, бросив вызов Google и другим традиционным поисковикам.

Читать далее
Всего голосов 10: ↑6 и ↓4+4
Комментарии12

Дизайн встраиваемой базы данных для ANN запросов: MusyaDB

Уровень сложностиСложный
Время на прочтение23 мин
Количество просмотров3.7K

Я решил задизайнить встраиваемую базу данных. Это даст вам почувствовать вкус настоящего инженерного искусства. Статья получилась размером с небольшую книгу и разбивается на две больших статьи. В первой части мы поймем с чего вообще начинается дизайн таких систем, выберем алгоритмы и модель вычислений.

Читать далее
Всего голосов 19: ↑19 и ↓0+23
Комментарии2

OpenAI анонсировала SearchGPT: поиск в интернете на базе ChatGPT4

Уровень сложностиПростой
Время на прочтение3 мин
Количество просмотров1.5K

Мы тестируем SearchGPT, прототип новых функций поиска, которые сочетают возможности наших моделей ИИ с информацией из интернета, чтобы предоставлять быстрые и своевременные ответы с четкими и релевантными источниками. Мы запускаем эту функцию для небольшой группы пользователей и издателей, чтобы получить обратную связь. Хотя этот прототип является временным, мы планируем интегрировать лучшие из этих функций прямо в ChatGPT в будущем. Если вы хотите попробовать прототип, зарегистрируйтесь в лист ожидания.

Читать далее
Всего голосов 5: ↑3 и ↓2+5
Комментарии1

ElasticSearch — поиск последовательности в тексте

Уровень сложностиСредний
Время на прочтение21 мин
Количество просмотров4.2K

Привет! На связи Аркадий из Т-Банка, мы по прежнему делаем TQM, и в этой статье покажу, как мы решили задачу с поиском последовательностей в тексте коммуникаций. Это работает как на простых цепочках из словосочетаний по порядку, так и на сложных кейсах — со временем фразы, каналом «клиент — оператор». Мы по прежнему работаем с ElasticSearch, оставляя возможность “накрутить” на поиск по тексту такие вещи как RAG, LLM и другие модные технологии. 

Несколько ограничений для сегодняшней задачи:

- Нелинейное возрастание сложности запроса при увеличении количества фраз. Поэтому предел у нас 4.

- Шаг тайминга мы выбрали 5 секунд. После каждой фразы ставим метку времени или несколько меток, если фраза заняла больше 5 секунд. Если сделать шаг слишком мелким это позволит искать более точно, но замусорит наше поле метками времени. Кажется, это тот момент когда лучше заранее договориться о требованиях.

А теперь к самому интересному. Добро пожаловать под кат!

Читать далее
Всего голосов 10: ↑10 и ↓0+13
Комментарии1

Ближайшие события

27 августа – 7 октября
Премия digital-кейсов «Проксима»
МоскваОнлайн
28 сентября – 5 октября
О! Хакатон
Онлайн
3 – 18 октября
Kokoc Hackathon 2024
Онлайн
10 – 11 октября
HR IT & Team Lead конференция «Битва за IT-таланты»
МоскваОнлайн
25 октября
Конференция по росту продуктов EGC’24
МоскваОнлайн
7 – 8 ноября
Конференция byteoilgas_conf 2024
МоскваОнлайн

Разбираемся с Vespa. Часть 1

Уровень сложностиСредний
Время на прочтение10 мин
Количество просмотров1K

Эта статья открывает серию из трёх материалов, посвящённых работе с поисковой системой хранения данных Vespa.

Из этой статьи вы узнаете:

1) Как настроить конфигурацию Vespa.

2) Как запустить сервер конфигурации Vespa в Docker.

3) Как выглядит структура схемы данных.

4) Как выполнить фильтрацию полей в результатах поиска.

5) Как отключить валидацию схемы данных и файла конфигурации для локальной отладки.

Читать далее
Всего голосов 6: ↑6 и ↓0+10
Комментарии2

Рекомендации нашей мечты: Как «Баннерная крутилка» Яндекса делает 700 тысяч RPS и подбирает для вас рекламу

Уровень сложностиПростой
Время на прочтение2 мин
Количество просмотров968

Зачем бариста земснаряд, а электромонтеру перкуссионный массажёр? Как так получается, что стоит только подумать об отпуске, как все баннеры предлагают путёвки в Дагестан? И почему после одного-единственного запроса о поворотниках для BMW ещё месяц продолжают крутиться объявления о покупке б/у запчастей? За всё это отвечает «Баннерная крутилка». Сервис обрабатывает 99% запросов всего за 200 миллисекунд, использует ML и серьёзно экономит ресурсы компании.

И вот, как это всё работает
Всего голосов 11: ↑3 и ↓8-1
Комментарии5

Как мы делали умного помощника: Use Case внедрения умного чат-бота на основе подхода «Карта знаний» и LLM GigaChat

Уровень сложностиСредний
Время на прочтение7 мин
Количество просмотров3.8K

Привет, Habr! Меня зовут Александр Сулейкин, архитектор Big Data решений, к. т. н. и CEO ИТ‑компании «ДЮК Технологии». Совместно с нашим экспертом по внедрению LLM, Анатолием Лапковым, мы подготовили статью по теме внедрения умного помощника в крупной некоммерческой организации. Под капотом — базовая модель от Сбера GigaChat, однако вся обвязка и подход к решению задачи — наши собственные. И это то, о чем пойдет речь в статье.

Читать далее
Всего голосов 7: ↑6 и ↓1+8
Комментарии3

Я могу один раз ошибиться! Как разработать нейронку для исправления опечаток в поиске

Уровень сложностиСредний
Время на прочтение6 мин
Количество просмотров1.6K

Всем привет! Меня зовут Аня Власова, я работаю ML-инженером в Купере (ex СберМаркет), а именно — в команде поиска. Сегодня я расскажу про нашу нейросетевую модель, которая стои́т на страже корректных поисковых запросов. Вы наверняка найдете пару инсайтов в этой статье, если тоже разрабатываете сервисы поиска или просто интересуетесь языковыми нейронками.

Читать далее
Всего голосов 8: ↑8 и ↓0+10
Комментарии5

Итоги года соло-разработки поискового движка на средства гранта

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров5.9K

Год назад я в последний раз вышел из офиса. В тот день я сдал свой корпоративный ноутбук, попрощался с коллегами и, наконец, стал сам себе начальником.

Работа в течение последующего года спонсировалась грантом компании NLnet, который я как раз почти израсходовал. На текущий момент вся работа выполнена, и я отправил последний запрос на выделение средств.

Оба этих события дарят ощущение лёгкости, как в последний учебный день в школе.

Работа, спонсируемая грантом, заканчивается, но разработка поискового движка продолжается. Независимое финансирование этого проекта запланировано на гораздо больший срок. Если ничего не изменится, его разработка должна завершиться к концу 2026 года.

В текущей статье я решил поделиться своим опытом, оглянувшись на проделанную работу, а также прикинуть перспективы на будущее.
Читать дальше →
Всего голосов 31: ↑24 и ↓7+27
Комментарии15

Он победил LLM RAG: реализуем BM25+ с самых азов

Уровень сложностиПростой
Время на прочтение18 мин
Количество просмотров15K

Привет, меня зовут Борис. Я автор телеграм канала Борис опять. Периодически мне на глаза попадается что-то интересное и я глубоко в этом закапываюсь. В данном случае это алгоритм поиска BM25+, который победил продвинутые методы векторного поиска на LLM.

Разберемся, что это за зверь и почему он так хорошо работает. В этой статье мы реализуем его на Python с нуля. Начнем с самого простого поиска, перейдем к TF-IDF, а затем выведем из него BM25+.

Статья подойдет тем, кто вообще ничего не знает о поиске, а более опытные ребята могут пролистать до реализации алгоритма.

Код доступен в Google Collab.

Читать далее
Всего голосов 33: ↑32 и ↓1+39
Комментарии13

Производительность Windows 11 «комически низкая», в интерфейс внедряют рекламу. Люди возвращаются на Windows 10

Уровень сложностиПростой
Время на прочтение8 мин
Количество просмотров60K


На рынке операционных систем происходит странное. Доля Windows 11 не растёт, как положено для новинки, а снижается. Согласно апрельской статистике Statcounter, после достижения рекордного показателя 28,16% в феврале 2024 года доля Windows 11 упала до 26,19% в апреле.

Тем временем доля Windows 10 за тот же период приблизилась к 70%. И это после того, как Microsoft объявила о завершении поддержки Windows 10 в октябре 2025 года.

Что вообще происходит?
Читать дальше →
Всего голосов 86: ↑80 и ↓6+100
Комментарии455
1
23 ...

Вклад авторов