dmgening Nov 11 2021 at 11:14

Вы «продоете теплых кросовок»: ищем идеальную пару обуви с помощью Elasticsearch

9 min

6.8K

Lamoda Tech corporate blogSearch engines*Development for e-commerce*Search engine optimization*

+20

Comments 5

Gansterito Nov 11 2021 at 11:19

"Продоете" тоже в кавычки, раз это мем.

altmf Nov 12 2021 at 07:54

Спасибо за интересную статью. Заинтересовали некоторые моменты:

Какие инструменты используете для хранения онтологии и работе с ней в процессе поиска.
Собралась ли база синонимов ( Гипонимов и гиперонимов) вручную или этот процесс как-то автоматизирован.
Как работаете со словарем ошибок и опечаток, он сгенерирован автоматически.

dmgening Nov 12 2021 at 11:49

Привет! По порядку:

У нас есть внутренний UI который позволяет нам хранить и редактировать граф связей слово-сущность-атрибут. В UI он представлен как набор таблицы 1-N связей. Эти связи мы поднимаем целиком в память при старте сервиса, и проводим по ним последовательный поиск, сначала из нормальной формы в сущность, потом синонимы и затем атрибуты.
Пока что все вручную экспертами собирается. У нас есть регулярные процессы где мы анализируем проблемные поисковые запросы и анализируя их мы подбираем правильные синонимы или обновляем словарь опечаток.

MaksimMukharev Nov 12 2021 at 09:03

Спасибо за статью. Подскажите, а снятием омонимии ваш поиск не занимается, я правильно понимаю? То есть в запросе "красного цвета" он может не понять, что речь идёт про цвет, а не цветы?

Topspin26 Nov 12 2021 at 11:10

Проблема снятия омонимии в общем подходе у нас сейчас не решается. Но кейс про цвет и цветы в наиболее частотных пользовательских формулировках мы обрабатываем:

из запросов "красная футболка" или "футболка красного цвета" выделим сущность "цвет=красный"
из запроса "футболка с цветами" выделим сущность "принт=цветочный"