NaumenDisk 26 янв 2023 в 18:15

Как мы ищем документы в Naumen Disk или еще один вариант организации FTS

14 мин

3.1K

Блог компании Naumen Поисковые технологии *Python *PostgreSQL *Хранение данных *

Комментарии 7

Kayten 26 янв 2023 в 19:36

Интересная статья, профессионально все изложено. Давно интересовала эта тема. Практически нашлись все ответы на мои вопросы.

Sonichka 27 янв 2023 в 02:42

Как вы определяете язык документа когда текст многоязычный? Стоп слова нужно разных языков использовать же?

NaumenDisk 27 янв 2023 в 15:11

Мы для фильтрации слов (вместо словарей стоп-слов) используем морфологический анализатор для русского языка pyMorphy2. Соответственно, если язык слова не русский, то для нормализации применяем Wordnet лемматизатор из NLTK.

fransua 27 янв 2023 в 09:23

Не пробовали префиксное дерево использовать для хранения индекса?

NaumenDisk 27 янв 2023 в 15:54

Не пробовали. В SQL работа с иерархической структурой на столь больших объемах может деградировать по скорости, поэтому древовидные структуры не рассматривали именно для решения этой задачи.

iurinmikhail 28 янв 2023 в 22:07

А если в поиск ввести именованные сущности, как организован их поиск? Например: Екатеринбург или Naumen

NaumenDisk 28 янв 2023 в 22:07

При вводе значений в поисковую строку поведение системы всегда одинаково, работает полнотекстовый поиск. Что касается задачи NER (Named Entity Recognition), то для этого подходит фасетный поиск, т.е. через фильтры. Естественно, фильтры у нас тоже есть. Задачу NER нам приходилось решать, можно значения фильтров наполнять распознанными по тексту именованными сущностями.

Зарегистрируйтесь на Хабре , чтобы оставить комментарий