Pull to refresh

Comments 5

Спасибо за интересную статью. Заинтересовали некоторые моменты:
  • Какие инструменты используете для хранения онтологии и работе с ней в процессе поиска.
  • Собралась ли база синонимов ( Гипонимов и гиперонимов) вручную или этот процесс как-то автоматизирован.
  • Как работаете со словарем ошибок и опечаток, он сгенерирован автоматически.

Привет! По порядку:

  • У нас есть внутренний UI который позволяет нам хранить и редактировать граф связей слово-сущность-атрибут. В UI он представлен как набор таблицы 1-N связей. Эти связи мы поднимаем целиком в память при старте сервиса, и проводим по ним последовательный поиск, сначала из нормальной формы в сущность, потом синонимы и затем атрибуты.

  • Пока что все вручную экспертами собирается. У нас есть регулярные процессы где мы анализируем проблемные поисковые запросы и анализируя их мы подбираем правильные синонимы или обновляем словарь опечаток.

Спасибо за статью. Подскажите, а снятием омонимии ваш поиск не занимается, я правильно понимаю? То есть в запросе "красного цвета" он может не понять, что речь идёт про цвет, а не цветы?

Проблема снятия омонимии в общем подходе у нас сейчас не решается. Но кейс про цвет и цветы в наиболее частотных пользовательских формулировках мы обрабатываем:

  • из запросов "красная футболка" или "футболка красного цвета" выделим сущность "цвет=красный"

  • из запроса "футболка с цветами" выделим сущность "принт=цветочный"

Sign up to leave a comment.