Comments 5
"Продоете" тоже в кавычки, раз это мем.
- Какие инструменты используете для хранения онтологии и работе с ней в процессе поиска.
- Собралась ли база синонимов ( Гипонимов и гиперонимов) вручную или этот процесс как-то автоматизирован.
- Как работаете со словарем ошибок и опечаток, он сгенерирован автоматически.
Привет! По порядку:
У нас есть внутренний UI который позволяет нам хранить и редактировать граф связей слово-сущность-атрибут. В UI он представлен как набор таблицы 1-N связей. Эти связи мы поднимаем целиком в память при старте сервиса, и проводим по ним последовательный поиск, сначала из нормальной формы в сущность, потом синонимы и затем атрибуты.
Пока что все вручную экспертами собирается. У нас есть регулярные процессы где мы анализируем проблемные поисковые запросы и анализируя их мы подбираем правильные синонимы или обновляем словарь опечаток.
Спасибо за статью. Подскажите, а снятием омонимии ваш поиск не занимается, я правильно понимаю? То есть в запросе "красного цвета" он может не понять, что речь идёт про цвет, а не цветы?
Проблема снятия омонимии в общем подходе у нас сейчас не решается. Но кейс про цвет и цветы в наиболее частотных пользовательских формулировках мы обрабатываем:
из запросов "красная футболка" или "футболка красного цвета" выделим сущность "цвет=красный"
из запроса "футболка с цветами" выделим сущность "принт=цветочный"
Вы «продоете теплых кросовок»: ищем идеальную пару обуви с помощью Elasticsearch