Comments 8
Спасибо за статью, как раз нужна для моего пет проекта
Есть форк с апдейтами https://habr.com/ru/post/541126/
Вы точно что переизобрели одну из популярных GPLv2 библиотек поисковой машины Sphinx написанную на C++, при этом SphinxAPI доступен также на PHP, Java, Perl, Ruby и Python.
Так автор и ставил себе целью написать собственную реализацию этого алгоритма.
возможно https://habr.com/ru/company/oleg-bunin/blog/551572/ вам поможет глава "ClickHouse без сервера"
Но в целом импорт и экспорт работают норм.
def lowercase_filter(text):
return [token.lower() for token in tokens]
Подправь.
def analyze(text):
tokens = tokenize(text)
tokens = lowercase_filter(tokens)
tokens = punctuation_filter(tokens)
tokens = stopword_filter(tokens)
tokens = stem_filter(tokens)
return [token for token in tokens if token]
А почему одно название переменной в функции? Насколько это лучший подход перед тем, чтобы переменные все-таки обделить оригинальными названиями?
Sign up to leave a comment.
Как сделать полнотекстовую поисковую машину на 150 строках кода Python