lauri18 мая 2008 в 12:09

Поиск: FULLTEXT или LIKE?

2 мин

41K

MySQL *

+40

Комментарии 67

Cord 18 мая 2008 в 15:10

1. уберите автооформление и сделайте

2. ...ответственность...
3. Преимущества.

зы плюс в карму

Cord 18 мая 2008 в 15:11

сделайте оформление с помощью, например, тэгов P и BR, а то сейчас много пустых строк.

lauri 18 мая 2008 в 15:16

готово

nfx 18 мая 2008 в 16:32

спасибо. полезная вещ. +1 в карму.

Fade 18 мая 2008 в 16:49

Присоеденяюсь. Сам постоянно об этом задумываюсь, да времени нет самому разобраться.

reflexing 18 мая 2008 в 20:18

Слово «вещь» пишется вот-так.

reflexing 18 мая 2008 в 20:19

Grammar Nazi: без дефиса.

somniator 18 мая 2008 в 16:35

Ждем аналогичного теста, но с 50 000, 50 0000 и 5 000 000 строк. Тогда будет что обсуждать и будут основания для выводов.

AzeriFire 18 мая 2008 в 16:54

Спасибо! У меня один вопрос, можеть быть и не в тему. Но.. Если в базе имеется вот такие данные.
 Blablabla
Как будет выглядеть запрос, что бы не искать html теги? Тут у меня в примере только , но можеть быть и другие html теги. Не подскажете как избежать проблему? А то когда искать слово font, запрос вернет мне все поля где есть html тег font.

AzeriFire 18 мая 2008 в 16:55

Тут у меня в примере только 

Apostol 18 мая 2008 в 17:02

Нужно завести отдельное поле, в котором будут объединены все поля, по которым нужно осуществлять поиск. В этом поле должен храниться текст, очищенный от html.

AzeriFire 18 мая 2008 в 17:21

Как тут можно теги отдельно сохранить не пойму. Кажеться вы меня не так поняли. Вот например есть cms, пишу новость, html теги разрешены. Добавляем новость:



<ul>

<li><a href="#">Lorem ipsum dolor sit amet, consectetuer adipiscing elit.</a></li>

<li><a href="#">Fusce bibendum ultricies lorem.</a></li>

<li><a href="#">Nulla facilisis odio vitae neque.</a></li>



<li><a href="#">Etiam sit amet purus a eros viverra adipiscing.</a></li>

<li><a href="#">Nunc dignissim eleifend turpis</a></li>

</ul>

<br class="spacer" />

</div>

А тепер в поиске напишем слово spacer.А тепер? Вот что я имел ввиду.

zkv 18 мая 2008 в 17:29

Заведите в базе ещё одно поле, где будет храниться чистый текст, без тегов.

AzeriFire 18 мая 2008 в 17:32

А понятно. Но значить база в два раза увеличиться тогда. Жаль что нет способа попроще.

crash 18 мая 2008 в 18:10

размер довольно дешев, так что можно пожертвовать винтом или плашкой озу ради время поиска, имхо.

zenuch 18 мая 2008 в 22:32

Если наименование различных тегов ограниченно, то советую использовать Stopwords list
(http://dev.mysql.com/doc/refman/5.0/en/f…)

bazzzman 19 мая 2008 в 02:16

Есть в php функция htmlspetialchars.

AzeriFire 19 мая 2008 в 05:51

Ну и? Пусть в базе данные будет в таком виде.
 Blabla 
И что это меняет?Всё ровно во время поиска слово font запрос увидеть html тег- font.

AzeriFire 19 мая 2008 в 05:53

елки палки! Хабр меняет код! забей!

susanin 18 мая 2008 в 16:57

в fulltext есть сортировка по релевантности

susanin 18 мая 2008 в 16:58

прошу прощения, неверно прочитал.

Apostol 18 мая 2008 в 16:59

На сколько я помню, fulltext имел проблемы с русской морфологией. Давно уже не использовал его, надо будет как-то проверить, изменилась ли ситуация.

Стоп-слова можно и в like использовать. (`parent` like 'мама' and `parent` not like 'папа')

Есть ещё и regexp, с которым возможны такие конструкции: `parent` regexp 'мам(а|у|е|ы|ой)'. Его было бы интереснее сравнить с `parent` like '%мама%' and `parent` like '%маму%' and `parent` like '%маме%' and `parent` like '%мамы%' and `parent` like '%мамой%'.

TMC 18 мая 2008 в 17:06

LIKE '%чтототам' вообще зло. Оно индекс не использует.

Apostol 18 мая 2008 в 17:19

Что не использует, это понятно. Но в большинстве случаев нужно искать слово посреди текста, а не в его начале. Поэтому и тесты нужно проводить соответственные. А то ведь можно и «=» для поиска нужной строки использовать. ;)

ganzer 18 мая 2008 в 17:53

Года 2 назад писал подобный поиск, со словарем. Работает нереально долго, но иногда просто незаменим.

ganzer 18 мая 2008 в 21:09

Пожалуй насчет "нереально долго" я соврал, все-же за приемлемое время. Например запрос по 3-м словам, в нескольких таблицах(допустим 5000 записей), в нескольких полях(2-3) занимал не более 5 секунд, на хорошем хостинге. Надо будет поковырять на досуге.
Использовался словарь - примерно 800 000 словоформ, с 2-мя полями "слово/словоформа" для выборки словоформ. Эксперименты по его оптимизации не проводил, хотя там можно все сделать программно из гораздо меньшей базы. Просто по сравнению с самим запросом, выборка из словаря занимает исчезающе малое время.

TMC 18 мая 2008 в 17:05

"поиск по словам не короче 4-х символов"
Ну это же настраивается. Можно и два символа, только индекс будет больше и тормозить будет сильнее.

lauri 18 мая 2008 в 17:11

Спасибо. Пожалуй удалю этот пункт.

mmcleric 18 мая 2008 в 17:13

Автор, вы осознаете, что LIKE '%...%' - это всегда full scan всей таблицы, а FULLTEXT - нет?
В таблице из миллиона строк о варианте с LIKE речи идти не может, ну а тестировать производительность на таблице в 5000 строк бессмысленно.

PS. Я сам никогда не имел дела с FULLTEXT, если что :)
PPS. "Apache (без дополнительных модулей)" - боюсь даже предположить, почему это релевантно топику.

lauri 18 мая 2008 в 17:16

Спасибо за мнение, согласен. Но не на всех сайтах и 1000 строк есть, мое упущение, что я не сказал об этом.

fxposter 18 мая 2008 в 17:37

А при 1000 записей об полнотекстовом поиске и не думают.

svk 18 мая 2008 в 17:25

В свое время пришлось реализовать поиск по таблице в которой более 7000000 строк. LIKE отрабатывал по ней около 20 минут, в то время как FULLTEXT (IN BOOLEAN MODE) - менее секунды.

ne0d1n 18 мая 2008 в 19:29

Согласен. Fulltext хорош на больших текстах, не на полях в 250 символов.
И в больших текстах он рвет Like как тузик грелку.
Хотя до полноценного поиска на больших размерах не дотягивает.

Советую тем, кому нужен FullTextSearch смотреть в сторону последнего PostgresQL,
в нем модуль ранее известный как tsearch2 теперь часть ядра, всторенный стемминг русского, английского, можно прикрутить словари и т.п.
Специальные индексы GIN и GiST для FullTextSeach, возможность задавать слова с разным весом для заголовков и других частей текста...
На порядок мощнее.

blondinka 20 мар 2010 в 22:06

У меня таблица с 9.000.000 строк. Колонки id(int), title(varchar)

Запрос (на VDS) типа:

SELECT * FROM `titles` WHERE
title title like '%string1%'
AND title like '%string2%'
AND title like '%string3%'
AND title like '%string4%'
LIMIT 50

4.5800 сек.

В данном случае мне FULLTEXT не подходит так как морфология не важна, а нужна 100% гарантия вхождения искомых слов и 100% результат даже при очень большом результате поиска.

tnz 2 сен 2010 в 22:59

Попробуйте использовать FULLTEXT IN BOOLEAN MODE и свои проверки тоже. Сначала ищет записи по индексу, потом фильтрует найденное лайком

mr_MAIL 18 мая 2008 в 17:33

Ваш самый быстрый запрос был выполнен за 0,019 сек, сымый долгий за 0,159. По сути - никакой разницы абсолютно. Но сам пост интересен, пишите еще, уважаемый автор!

lauri 18 мая 2008 в 17:35

В рамках целой CMS этот разрыв очень большой и значительный, при том, что генерация только самой страницы за 0.1, на мой взгляд это уже непозволительно много.

fxposter 18 мая 2008 в 17:41

А можно конкретней про условия испытания? Как запускали, какая операционная система?

lauri 18 мая 2008 в 17:48

Windows Vista, Отдельные скрипты PHP (6 штук) для каждого варианта, высчитывал среднее значение тоже естественно скриптом, причем значения до тысячных не менялись при создании новой БД. Повторюсь, что эксперимент не претендует на чистоту, т.к. не сервер, тем более не виртуальный. Условия так сказать домашние :)

fxposter 18 мая 2008 в 17:52

Я тебе могу сказать, что эксперимент не то, что на чистоту - вообще не может на что-либо претендовать... Начать хотя бы с того, что замерять скорость работы MySQL через PHP... Хотя бы через консольное приложение MySQL'я запустил...

kal4evskiy 18 мая 2008 в 21:47

пользователи тоже будут запускать поиск через консоль?

fxposter 18 мая 2008 в 21:50

А какое отношение PHP имеет к "FULLTEXT или LIKE"?

tapin13 18 мая 2008 в 17:41

Решал проблему FULLTEXT-ом, когда зашёл в тупик изобретая велосипед умного поиска :)
Больше всего в нем порадовало это приоритеты.
По скорости хочется верить, что таки обгоняет LIKE '%...%', но сам не экспериментировал не знаю.

kashey 18 мая 2008 в 18:42

Сканировал таблицу, вырезал html, приводил все слова в именительный падеж, удалял "обычный язык" - операторы "обычной речи"
Потом результат в другую таблицу( так как на главную MyISAM вешать не охота) и .. просто радоваться :)
Лучше фултекста только создание кишкообразных таблиц вида docuID,wordID ...
Которые по сути дублируют внутрений функционал фултекста, но поддаются какому угодно контролю...

grey_kristy 19 мая 2008 в 08:01

а как слова приводили в именительный падеж?

kashey 19 мая 2008 в 08:18

1.str_wordcount
2.создаем таблицу слов( 600к слов)
3.выбираем слово, пробуем отрезать и добавлять окончания и ищем это в базе
таким вот методом тыка понимать что это(глагол, прилагательное, существительное)
После чего наличие некоторых окончаний определяет форму слова( забыл как по научному называется, вроде как склонение)
расставляет флаги у слов - какое,что,в каком падеже..
можно использовать.
База такая генериться день :)
Делал для "гиперконтекста"
Бонус - система самособираемая. Даже "падонкофский" язык может просклонять если найдет записи с правильными окончаниями( аффтар, аффтара, аффтару... )

oowl 18 мая 2008 в 19:24

В образовательных целях:

Apache Lucene

Sphinx

Для повышения грамотности: «и естественно решающим», «четырьмя», «заваисимости», «рпактически по любым типам полей», «поиске Гугла» и т.д. и т.п.

fxposter 18 мая 2008 в 19:36

Ну, мы в данном случае, наверно, говорим о возможностях поиска самой БД.
Хотя в образовательных целях подойдет. :)

lauri 19 мая 2008 в 08:17

Чего только не напишешь при температуре 39... спасибо

madm1ke 18 мая 2008 в 19:53

Бенчить MySQL надо с использованием select benchmark(...), а не php-скриптами, и уж точно не из браузера под апачем, если что.
И full-text index, и like неприменимы на больших объемах данных и важных задачах. Правильный метод - использование внешних поисковых движков типа сфинкса, ну и like для мелких фенечек, которые возникают три раза в год :)

samokhvalov 18 мая 2008 в 21:48

Стоило бы подчеркнуть, что это всё только в контексте MySQL. У других СУБД с full-text index всё значительно лучше и нет необходимости во внешних движках, с которыми сложность системы возрастает и теряется возможность проведения комплексных SELECT-ов (полнотекстовый фильтр + доп. ограничения по интервалам и т.п.)

samokhvalov 18 мая 2008 в 21:49

P.S.: этот коммент — реакция на слова "правильный метод", но ни в коем случае не попытка развести какой-либо спор.

madm1ke 18 мая 2008 в 21:56

Хорошее уточнение :)
Хотя насчет сложности использования внешних движков очень хочется поспорить, особенно учитывая сфинкс как pluggable storage engine к MySQL.

zerkms 19 мая 2008 в 00:31

1. нет запросов
2. эти запросы никогда не будут эквивалентны по выдаче, как их можно сравнивать?

zerkms 19 мая 2008 в 00:34

>> поддержка только VARCHAR и TEXT полей с индексами FULLTEXT
боюсь представить, по каким ещё типам полей можно осуществлять полнотекстовый поиск? :-)

stepan_ovchinnikov 19 мая 2008 в 03:36

мне представляется сравнение двух настолько разных инструментов, как like и match() через fulltext, мягко говоря, странным
функционально fulltext намного богаче, и часто вы сможете like'ми заменить его только написав гору кода.
даже без подключенной русской морфологии прекрасно работает убирание окончаний стеммером Портера в реализации Котерова (найдите яндексом) и замена окончаний на *

fulltext за счет языка запросов, сортировщика по релевантности должен использоваться для решения других задач и на другом уровне.

кроме того, не забудьте о том, что fulltext indexes тормозят вставки. на больших таблицах это немаловажно

если уж вы пишете такой тест, то не стоит сравнивать тупо запуск двух серий запроса, лучше попробовать грамотно сравнить реализацию, скажем, по форуму или хабру поиска через эти дву пути (и то не представляю, как вы like'ом полученную выдачу будете по релевантности сортировать)

на реальных задачах, которые я решал при написании программного макета к диссертации fulltext давал очень хорошее быстродействие на базах в сотни тысяч больших статей, а вот lile %s% на словаре в 100 тысяч слов задумывался очень крепко.

сравнение познавательное, но, простите, слабенькое.
плюсанул вас два раза, пишите еще.

kronos 19 мая 2008 в 07:48

Мускуле фултекст убогий, используйте сфинкс.

НЛО прилетело и опубликовало эту надпись здесь

kronos 19 мая 2008 в 15:58

а что не говно?

kronos 19 мая 2008 в 15:58

(убогий по сравнению с постгресовским tsearch) -2 минуса и не одного комментария! Ну же! Отписываемся почему минусуем!

jrip 19 мая 2008 в 08:46

Исследование интересное, спасибо и плюс вам в карму.
Но, имхо, всё-таки не совсем корректно подобным образом сравнивать LIKE и полнотекстовый поиск, т.к. сферы применения всё-таки несколько разные.

dreikanter 19 мая 2008 в 10:21

Было бы интересно видеть аналогичный сравнительный тест для Postgres.

kronos 19 мая 2008 в 16:00

6000000 записей ilike 3 секунды sphinx 0.01

НЛО прилетело и опубликовало эту надпись здесь

coylOne 21 мая 2008 в 07:05

Мне понравилось. Учитывая, что я фултекст не юзал никогда - автору плюс за просвещение =)

DenCh 3 июн 2008 в 02:27

Присоединюсь к большинству, 5 000 записей — и правда маловато.
И запросов нет (
По поводу замеры с помощью PHP тоже двояко, с одной стороны результаты получаются не столь «чистые» как при использовании MySQL Console, но с другой пользователи действительно будут получать результаты через сайт, а не через консоль.
Для чистоты я бы предложил записей сделать побольше на 2-а порядка и результаты, и при помощи консоли, и при помощи PHP.

P.S. 100 запросов раз в секунду — слабая нагрузка, вопросы связанные с «прелестями» поиска появляются имхо на более высоконагруженных, так что я бы выполнял 1 000 (или даже 10 000) с плотностью — 100 / сек.

Artemeey 15 июн 2015 в 07:22

Добрый день, уточняющий вопрос

два из которых использовались для поиска и были проиндексированы FULLTEXT'ом

Какие именно индексы вы использовали?
По задумке теста ожидается использование:

индекс по первой колонке
индекс по (первой + второй) колонкам

Но в статье на нашел описание выбранных индексов и могу предположить, что использовались индексы отдельно второй и третей колонок, а не совместный индекс. Если это так — то это может являться причиной, по которой третий тест дал плохой результат.

Добавьте, пожалуйста, список индексов, спасибо!

Зарегистрируйтесь на Хабре, чтобы оставить комментарий