NaumenDisk Jan 26 2023 at 18:15

Как мы ищем документы в Naumen Disk или еще один вариант организации FTS

14 min

3.6K

NAUMEN corporate blogSearch engines*Python*PostgreSQL*Data storage*

Comments 7

Kayten Jan 26 2023 at 19:36

Интересная статья, профессионально все изложено. Давно интересовала эта тема. Практически нашлись все ответы на мои вопросы.

Sonichka Jan 27 2023 at 02:42

Как вы определяете язык документа когда текст многоязычный? Стоп слова нужно разных языков использовать же?

NaumenDisk Jan 27 2023 at 15:11

Мы для фильтрации слов (вместо словарей стоп-слов) используем морфологический анализатор для русского языка pyMorphy2. Соответственно, если язык слова не русский, то для нормализации применяем Wordnet лемматизатор из NLTK.

fransua Jan 27 2023 at 09:23

Не пробовали префиксное дерево использовать для хранения индекса?

NaumenDisk Jan 27 2023 at 15:54

Не пробовали. В SQL работа с иерархической структурой на столь больших объемах может деградировать по скорости, поэтому древовидные структуры не рассматривали именно для решения этой задачи.

iurinmikhail Jan 28 2023 at 22:07

А если в поиск ввести именованные сущности, как организован их поиск? Например: Екатеринбург или Naumen

NaumenDisk Jan 28 2023 at 22:07

При вводе значений в поисковую строку поведение системы всегда одинаково, работает полнотекстовый поиск. Что касается задачи NER (Named Entity Recognition), то для этого подходит фасетный поиск, т.е. через фильтры. Естественно, фильтры у нас тоже есть. Задачу NER нам приходилось решать, можно значения фильтров наполнять распознанными по тексту именованными сущностями.