Comments 15
А где, собственно, результат работы за год? Что было реализовано, как это работает и прочее?
Если это https://search.marginalia.nu/ и есть результат работы, то всё очень плохо. Начиная от дизайна и заканчивая результатами поиска. Если в поиске вбить habr, то сайта https://habr.com/ нет даже среди первых 20 результатов поиска.
Результат работы: Оба этих события дарят ощущение лёгкости, как в последний учебный день в школе.
Вот так большинство и работают. Херак-херак и в продакшен.
Я недавно участвовал в сдаче в эксплуатацию большого проекта (не только программного), которым занимался последние 16 лет, так чуть не прослезился. Ощущение было такое, как будто ребёнок вырос и уходит из семьи.
Конкретно про результаты поиска:
The aim of the project is to develop new and alternative discovery methods for the Internet.
It's an experimental workshop as much as it is a public service, the overarching goal is to
elevate the more human, non-commercial sides of the Internet.
Кошмарный перевод, напоминает первые версии гугл транслейта, есть достаточное количество ошибок.
Сама статья ни о чем вообще, tldr: "взял какой-то опенсоурсный движок, год над ним поработал, что-то получилось, что-то нет", никаких деталей вообще нет.
Крайне редко критикуем, но блин...
Кому вообще может быть интересно это убогое поделие на Java, когда существуют такие продвинутые решения как Sphinx и Manticore...
Вы просто результаты поиска вкинули?) сфинкс - морально устарел, Мантикора - поддерживается абы как. В продакшн я бы не стал использовать их. Масштабирование у обоих херовое, fuzzySearch ещё хуже. Опенсерч/эластиксерч ещё ладно бы...
Sphinx запиливал под заказ много лет назад в большой проект. Он себя там прекрасно зарекомендовал. Насколько я сейчас вижу по их интефейсу — ничего не поменялось. Единственное, что автор тогда подзабросил свой проект и даже стабильная версия на тот момент подтекала по памяти, поэтому пришлось сделать рестарт по крону раз в неделю. Но то такое... Sphinx далеко ушёл с тех пор.
Мантикору не довелось попробовать, но их команда столько усилий тратит в саморекламу на хабре, что даже не верится, что там может быть всё "абы как". Жаль, если это действительно так
Эластик будет норм только если парсить сайт-визитку. А на проектах чуть побольше то ещё гуано — сколько ему железа не дай, всё мало будет.
В сфинксе разве есть алгоритмы нечеткого поиска?
fuzzySearch, я про это писал. А для дубового exact match я вообще лучше кликхаус буду юзать)
1 - это не fuzzySearch. Fuzzy search - это когда по запросу compuiting seeearch найдутся результаты, которые находятся на определенном удалении от эталона.
2 - тоже самое.
Нет там нихрена fuzzy search, как я и говорил. Поиск по регуляркам - это не fuzzy. Соответствие регулярному выражению - тоже. Да, есть возможность корректировки спеллинга на основе индекса, но он работает только по одному слову. Т.е. чтобы нечетко найти compuutiong seearch - нужно сначала разделить слова, предложить пользователю варианты замены, и только после этого искать. Как у пользователя, от такого поиска у меня сначала сгорела бы жопа.
Гуглите Levenshtein distance. В Sphinx и Manticore этого нет.
UPD: В мантикоре - оказывается есть функция LEVENSTEIN
. Ваша ссылка, правда, не имеет вообще отношения к этому)
Месье бездельникс
https://github.com/InExSu
Итоги года соло-разработки поискового движка на средства гранта