vybornyy 19 июн 2023 в 13:58

Полнотекстовый поиск в PostgreSQL с SQLAlchemy

Средний

7 мин

8.5K

Блог компании beeline cloudPython*PostgreSQL*Программирование*

Комментарии 5

Niccolum 20 июн 2023 в 18:36

Чем не подошёл модуль fuzzystrmatch для полнотекстового поиска? Он лишён тех минусов, о которых вы упоминали в статье

vybornyy 21 июн 2023 в 11:14

fuzzystrmatch интересный модуль, но это не полноценный FTS, а реализует только некоторый функционал, который полезен только для отдельных узких кейсво. К примеру, из доки

Система Soundex позволяет вычислить похожие по звучанию имена, приводя их к одинаковым кодам. Изначально она использовалась для обработки данных переписи населения США в 1880, 1900 и 1910 г

у вас был опыт использование этого модуля? как отрабатывает? опечатки и прочее

Niccolum 21 июн 2023 в 11:18

Работает по алгоритму левенштейна, проблем и неудобных юзкейсов не испытывал.

Есть одна особенность. У него левенштейн по подстроке, т.е.

Если в базе
"ООО Рога и Копыта"
И
"ООО Рыг"

И мы ищем по "ООО Рог", то найдёт первую строку, и покажет 100% совпадение.

Т.е. оно магически находит наиболее похожую подстроку, и показывает левенштейн по ней.

vybornyy 22 июн 2023 в 11:35

ну вот это как раз ключевой момент, потому что pg_trgm для данного примера выдаст оба варианта с разным similarity_ratio и с этим можно будет работать. отсортировать и пользователь сможет выбрать нужное.

но в любом случае выглядит интересно, надо будет попробовать fuzzystrmatch тоже, спасибо за наводку

Niccolum 22 июн 2023 в 11:40

Нене, выдаст оба, при прочих равных. Просто % будет выше у первой строки.
Т.е., согласно доке, будет 0 у первой строки, и 1 у второй.

P.S. Я не про soundex, а про levenshtein.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий