Comments 7
Интересная статья, профессионально все изложено. Давно интересовала эта тема. Практически нашлись все ответы на мои вопросы.
Как вы определяете язык документа когда текст многоязычный? Стоп слова нужно разных языков использовать же?
Не пробовали префиксное дерево использовать для хранения индекса?
А если в поиск ввести именованные сущности, как организован их поиск? Например: Екатеринбург или Naumen
При вводе значений в поисковую строку поведение системы всегда одинаково, работает полнотекстовый поиск. Что касается задачи NER (Named Entity Recognition), то для этого подходит фасетный поиск, т.е. через фильтры. Естественно, фильтры у нас тоже есть. Задачу NER нам приходилось решать, можно значения фильтров наполнять распознанными по тексту именованными сущностями.
Как мы ищем документы в Naumen Disk или еще один вариант организации FTS