RussianDragon 19 июн 2017 в 00:18

Нечеткий поиск по названиям

21 мин

35K

Программирование*Алгоритмы*C#*

+43

Комментарии 21

unsafePtr 19 июн 2017 в 00:43

Может я не доглядел, но в чём польза использования SortedDictionary заместо Dictionary в данном случае. Какую это может принести пользу?

RussianDragon 19 июн 2017 в 00:45

Все справочники мы заполняем единожды, а обращаемся мы к ним часто. Как следствие это сделано лишь для оптимизации доступа.:)

unsafePtr 19 июн 2017 в 00:56

Имплементация SortedDictionary базируется на бинарном дереве, Dictionary базируется на хеш-таблице. Скорость доступа Dictionary выше. Так что можно ускорить немного алгоритм, заменив структуру данных.:)

RussianDragon 19 июн 2017 в 01:02

Если посмотреть на графики из данной статьи, то можно увидеть, что скорость чтения из SortedDictionary выше

полная статья

В любом случае это нюансы. И, кстати, да, я не увидел большой разницы при использовании Dictionary и SortedDictionary. Но тут показалось мне более логичным использовать SortedDictionary.

sasha1024 19 июн 2017 в 16:21

Вы неправильно интерпретируете графики. Лучшие результаты — бо́льше (а не меньше).
Upd.: Упс, извиняюсь, не заметив Ваш комент ниже.

RussianDragon 19 июн 2017 в 01:10

Что-то я фигню сморозил. Перемудрил. Да, Dictionary, будет быстрее спасибо :)

aulitin 19 июн 2017 в 13:39

спасибо за стаью!
больше всего смущает ситуацию с производительностью. Вы ее не измеряли? ведь автодолнение должно быть отзывчивым, а Левенштейн достаточно сложен.

И из текста, не очень понятно, как в итоге была решена проблема: (и решена ли вообще)

3) Названия сервисов имеют в своем составе более одного слова, то человек может просто не помнить, в каком именно порядке они идут.

я всегда мечтал, чтобы на сайтах поиск работал по camelhumps, как в ReSharper-е и IntelliJ IDEA :)

RussianDragon 19 июн 2017 в 14:18

Пожалуйста :)
Производительность в консоле при 1000 наименований была в пределах 1 секунды, что меня вполне устроило, а на большее энтузиазма не хватило.

3 часть начинается со слов:

Со словами, как и поисковой единицей, вроде разобрались, теперь переходим к фразам.

aulitin 19 июн 2017 в 15:18

а если поисковый запрос будет выглядить как «а а а а а а » повторенное 100 раз?

RussianDragon 19 июн 2017 в 15:39

Не пробовал. Вечером ради интереса посмотрю. Но тут на первый план выходит адекватность данных.
Алгоритм предназначен для поиска по названиям, а не по текстам.
То такие поисковые запросы можно отсекать до попытки поиска на них.

Тут я еще не поднял вопрос о том как отсекать результаты при выводы на странице "со всеми совпадениями". И вот на эту тему можно похолеварить.:)

Pochemuk 19 июн 2017 в 17:58

Вот тут не понял:

А для русского я составлю сам по наитию:

«ыий», «эе», «ая», «оёе», «ую», «шщ», «оа», «йо»

Что за группа «йо»? Тем более, что и «й» и «о» уже входят в другие группы.

RussianDragon 19 июн 2017 в 20:27

Группа "йо" взялась с транскрипций расскоязычных звуков. Буква ё разлогается на звук "йо". Но если подумать, то Вы правы. Перехода "й" в "о" я не смог придумаль или быстро нагуглить.

Одна буквы может входить в несколько груп например sxz и csz.
Просто так проще их обдумывать и править. И поэтому мы и преобразуем эти фонетические группы в новый справочник который и используем потом в коде

НЛО прилетело и опубликовало эту надпись здесь

RussianDragon 19 июн 2017 в 22:58

Почему именно google? Вон недавно Яндекс выступал о нейронных сетях, автоматизации и т.д. и т.п.
Всё бы здорово, но где взять данные в таком объеме? Это все не реально для обычных сайтов.

НЛО прилетело и опубликовало эту надпись здесь

sutasu 19 июн 2017 в 23:48

Lucene в качестве решения не рассматривали? У него и .NET обертка есть…

RussianDragon 20 июн 2017 в 01:23

Не-а. Сейчас попробовал про него поискать и воспользоваться для сравнения результатов выборки, но, в полусонном состоянии, особо ничего не вышло. :) Попробую, как время будет. Спасибо)

RussianDragon 24 июн 2017 в 11:16

Попробовал я поработать с Lucene.NET.
С одной стороны — да.
по слову «Кометика» удалось найти «Косметика». Но поиск упорно выдавал только одно слово и всё. Хотя я, по идее, просил не меньше 1000 результатов

indexSearcher.Search(query, 1000)

Дальше больше, когда я сократил слово до «Ком», результатов вообще не было.
Хотя по идее используется именно нечеткий поиск
Term term1 = new Term(«line», term);
Query query = new FuzzyQuery(term1);

Таким образом получается, что — да он позволяет находить слова с ошибками, но не делать поисковый запрос.
Да и те примеры которые я находил относят именно к поиску на тексте, а не по названиям.
В общем штука интересная, но настраивать и разбираться в документации дольше, чем сделать самому с нуля — это не удобно.
Как то так. Но спасибо за библиотеку.

sutasu 24 июн 2017 в 14:37

По поводу сделать самому — без всякой иронии поддерживаю и желаю удачи, вдруг у вас выйдет свой продукт, который займет достойное место на рынке полнотекстового поиска ) Другое дело, что бывают такие задачи, когда пилить свой велосипед накладно или нецелесообразно. У меня в свое время была задача в «мешке» из 7 млн адресов — естественно, неструктурированных и со всеми возможными орфографическими ошибками, найти соответствия мешку из 8к адресов, так же в плачевном состоянии. Lucene отбирал подходяшие на первый взгляд варианты, а основная работа была в том, чтобы отбросить ложные срабатывания и просто похожие, но не одинаковые адреса.