Хабр Курсы для всех
РЕКЛАМА
Практикум, Хекслет, SkyPro, авторские курсы — собрали всех и попросили скидки. Осталось выбрать!
Важный краевой эффект этого поведения состоит в том, что если слово уже находится в нормальной форме и это обнаружил один из стеммеров (но, при этом, разумеется, ничего не стал менять), то оно будет обработано последующими стеммерами.Для портера это, видимо, один слог, т. к. дальше резать некуда. Если глянуть его код (канонический вариант на языке snowball), то можно увидеть, что он очень тупой и не имеет понятия о «нормализованной» форме. Он тупо стеммит.
Он достаточен для работы.Я где-то утверждал, что его недостаточно для простых задач? Я всего лишь сравнил с серьезной поисковой системой, где:
И к тому же уже достаточно сложен для филоофии unix-way.При чем здесь unix-way? К чему вы его приплели?
Мне просто на первый взгляд показалось, что от Вашего комментария веет троллингом. А вот такой формулировкой Вы меня окончательно в этом убедили!Solr более сложный и гибкий, и, логично, более медленный. Ви так говоr'ите, как будто это что-то плохое.
unix-way был упомянут как подход «простых понятных инструментов». В сфинксе ставка на скорость индексации, и потому многие моменты объединились, оптимизировались и снаружи стали менее прозрачными (увы). Но цель, при этом, достигнута: по сравнению с «серьёзной поисковой системой» есть в продакшне как очень большие индексы (~22E9 доков), так и очень загруженные (комфортно обслуживают ~3E8 запросов в сутки).
Solr более сложный и гибкий, и, логично, более медленный. Ви так говоr'ите, как будто это что-то плохое.
Конвейер обработки текста в Sphinx