Pull to refresh

Comments 15

А где, собственно, результат работы за год? Что было реализовано, как это работает и прочее?

Если это https://search.marginalia.nu/ и есть результат работы, то всё очень плохо. Начиная от дизайна и заканчивая результатами поиска. Если в поиске вбить habr, то сайта https://habr.com/ нет даже среди первых 20 результатов поиска.

Результат работы: Оба этих события дарят ощущение лёгкости, как в последний учебный день в школе.

Вот так большинство и работают. Херак-херак и в продакшен.

Я недавно участвовал в сдаче в эксплуатацию большого проекта (не только программного), которым занимался последние 16 лет, так чуть не прослезился. Ощущение было такое, как будто ребёнок вырос и уходит из семьи.

Конкретно про результаты поиска:

The aim of the project is to develop new and alternative discovery methods for the Internet.
It's an experimental workshop as much as it is a public service, the overarching goal is to
elevate the more human, non-commercial sides of the Internet.

MarginaliaSearch/README.md

Кошмарный перевод, напоминает первые версии гугл транслейта, есть достаточное количество ошибок.
Сама статья ни о чем вообще, tldr: "взял какой-то опенсоурсный движок, год над ним поработал, что-то получилось, что-то нет", никаких деталей вообще нет.
Крайне редко критикуем, но блин...

Кому вообще может быть интересно это убогое поделие на Java, когда существуют такие продвинутые решения как Sphinx и Manticore...

Вы просто результаты поиска вкинули?) сфинкс - морально устарел, Мантикора - поддерживается абы как. В продакшн я бы не стал использовать их. Масштабирование у обоих херовое, fuzzySearch ещё хуже. Опенсерч/эластиксерч ещё ладно бы...

Sphinx запиливал под заказ много лет назад в большой проект. Он себя там прекрасно зарекомендовал. Насколько я сейчас вижу по их интефейсу — ничего не поменялось. Единственное, что автор тогда подзабросил свой проект и даже стабильная версия на тот момент подтекала по памяти, поэтому пришлось сделать рестарт по крону раз в неделю. Но то такое... Sphinx далеко ушёл с тех пор.

Мантикору не довелось попробовать, но их команда столько усилий тратит в саморекламу на хабре, что даже не верится, что там может быть всё "абы как". Жаль, если это действительно так

Эластик будет норм только если парсить сайт-визитку. А на проектах чуть побольше то ещё гуано — сколько ему железа не дай, всё мало будет.

Спорить не буду, но и соглашаться - тоже. Я не юзаю эластик, а опенсерч означенные проблемы не имеет.

UFO just landed and posted this here

В сфинксе разве есть алгоритмы нечеткого поиска?

fuzzySearch, я про это писал. А для дубового exact match я вообще лучше кликхаус буду юзать)

UFO just landed and posted this here

1 - это не fuzzySearch. Fuzzy search - это когда по запросу compuiting seeearch найдутся результаты, которые находятся на определенном удалении от эталона.
2 - тоже самое.
Нет там нихрена fuzzy search, как я и говорил. Поиск по регуляркам - это не fuzzy. Соответствие регулярному выражению - тоже. Да, есть возможность корректировки спеллинга на основе индекса, но он работает только по одному слову. Т.е. чтобы нечетко найти compuutiong seearch - нужно сначала разделить слова, предложить пользователю варианты замены, и только после этого искать. Как у пользователя, от такого поиска у меня сначала сгорела бы жопа.
Гуглите Levenshtein distance. В Sphinx и Manticore этого нет.
UPD: В мантикоре - оказывается есть функция LEVENSTEIN. Ваша ссылка, правда, не имеет вообще отношения к этому)

UFO just landed and posted this here
UFO just landed and posted this here
Sign up to leave a comment.