provocateur9 июл 2008 в 04:50

Фонетический поиск

4 мин

17K

PHP *

+121

Комментарии 77

Butylski 9 июл 2008 в 05:13

Чувачок, ты объяснил так просто такую хрень )))

rumkin 9 июл 2008 в 07:57

Бутыльски, осталось нам найти Водкина!

Butylski 9 июл 2008 в 08:20

Рюмкин, аналогично и вам )))
может сообразим на троих? ))

Vodkin 9 июл 2008 в 09:17

я тут!

Butylski 9 июл 2008 в 09:27

вот и чудненько

rumkin 9 июл 2008 в 11:31

Наливай ;)

rumkin 9 июл 2008 в 11:31

Бухаем ;)

M_K 9 июл 2008 в 23:32

Можно с вами? :)

BarAusWald 9 июл 2008 в 23:52

соображайте на троих. только уж на статью интересную соображайте!

YuriChetverikov 9 июл 2008 в 05:40

отлично!
замечательная статья, все бы такие были.

заинтересовало очень.

art_t 9 июл 2008 в 05:47

Правда интересно и доходчиво написано!

dfuse 9 июл 2008 в 05:52

Да, саундекс отличная штука. Позволяет не геморроиться со всякими там стеммерами и прочими морфологическими приблудами.

Вообще мне вот интересно, как, допустим, яндекс режет приставки, падежи и т.д., наверняка же где-то есть и эти алгоритмы. Стеммер Портера не предлагать :)

feedbee 9 июл 2008 в 06:10

Это называется "поиск с учетом морфологии". Есть несколько таких готовых движков, сам яндекс свой раздает. А можно написать и что-то подобное самому.

dfuse 9 июл 2008 в 06:18

Про яндекс то я в курсе, просто это некая программулина, а не набор скриптов, соответственно на шаред хостинге не факт, что заработает как надо. А вот за вторую ссылку спасибо, почитаю.

YuriChetverikov 9 июл 2008 в 08:03

Если я не ошибаюсь, то на яндексе есть и сорс всего этого, и порты под разные системы. Тем более, сделать обработчик готовой проги не так сложно. Она ж там на си написана.

Еще раз повторюсь: не уверен в том, что только что написал, надо скачать и смотреть. Просто с годик назад качал и запускал на хостинге спокойно

feedbee 9 июл 2008 в 09:55

Нет там сырцов, вы что :) Порты, да, есть.

Vodkin 9 июл 2008 в 09:23

посмотрите на сфинкс.
он "из коробки" умеет морфологию русского и английского, мы достаточно просто добавили и украинский.

feedbee 9 июл 2008 в 09:57

Он не подойдет для shared-хостинга.
Кстати, а в сфинксе есть поиск по фразе (типа как если в "ковычки" слова в гугле взять) ?

Vodkin 9 июл 2008 в 10:09

да, вы правы, для виртуального проще использовать работу со словарями прямо в mysql, примерно как это описано у вас во второй ссылке. так тоже работали ) пока не понадобился украинский. с ним больше проблем из-за морфологического изменения корня слова в существительных.

поиск по фразе есть, насколько помню, но лучше посмотреть документацию, как именно это делается.

feedbee 9 июл 2008 в 10:29

Поясню, что спросил об этом не случайно. Этот вопрос для меня действительно сейчас актуален. Вот в том поиске, который с версии 8.3 вшит в Postgres, нету поиска фраз. Я уже посмотрел в мануале, есть в нем фразовый поиск, да. Это гуд.

dfuse 9 июл 2008 в 11:24

Шаред конечно не требование, но большинство клиентов вряд ли разорятся на хотя бы VPS/VDS.

НЛО прилетело и опубликовало эту надпись здесь

nIx0iD 9 июл 2008 в 05:53

Респект, отличная статья.

amduscias 9 июл 2008 в 05:54

Реально, полезная вещь... А ведь можно этот поиск как-то и семантическим сделать

v_k 9 июл 2008 в 06:01

хеширование слов %\

nini 9 июл 2008 в 06:24

Какой позитив с утра =)
Спасибо за статью.

padm 9 июл 2008 в 06:30

Респект. Былаб возможность - добавил бы плюсов.

НЛО прилетело и опубликовало эту надпись здесь

q_styler 9 июл 2008 в 06:48

Вторая хорошая статья на хабре за последние сутки.
Спасибо огромное.
Вот теперь думаю, как бы это реализовать в MySQL.

provocateur 9 июл 2008 в 06:58

Ну, самый простой и прямой вариант перевесить на мускул - считать коды на пхп, а в мускул пихать fulltext-индекс, затем искать binary fulltext в виде match (fulltext_key) against ('+845747 +773644' in boolean mode)
а если совсем хочется глубоко закопаться - можно на процедурах сделать

q_styler 9 июл 2008 в 07:02

Не. Я придумал иначе. Сделаю отдельную таблицу, в которой будет айдишник итема и коды названия (ну типа один итем ко многим кодам).
И генерить коды при добавлении нового итема.

mytribune 9 июл 2008 в 07:10

Ясность изложения говорит о большом понимании автором.
А то вечно напишут что-то запутанное, а потом делают вид, что шарят :)
Побольше бы таких замечательных статей!

yozhyk 9 июл 2008 в 07:13

Раз уж статья опубликована в разделе PHP, то, думаю, едва ли можно обидеть вниманием такую замечательную встроенную PHP-функцию, как metaphone() - собственно, реализация уже упомянутого алгоритма Metaphone. Есть еще такая реализация, как double metaphone (можно взять на http://swoodbridge.com/DoubleMetaPhone/). Она хоть и точнее, но работает, правда, помедленнее. Сама же функция metaphone - весьма шустрая, предназначена, к сожалению, только для латиницы, так что, без транслита все же не обойтись :(

xDev 9 июл 2008 в 07:25

С релизом шестерки, проблемы с латинецей и metaphone исчезнут слава богу )

Rando 9 июл 2008 в 07:20

Отличное решение сложной проблемы!

alexbig 9 июл 2008 в 07:33

спасибо большое за интересную и простую подачу такого, казалось бы, туманного алгоритма.
кто набрался смелости посчитать циферки для чака норриса — отпишитесь. страшно запускать.

andrey_stepanov1 9 июл 2008 в 07:44

полезная и хорошо написанная статья! спасибо!

kurokikaze 9 июл 2008 в 08:00

Пять баллов.

mifa 9 июл 2008 в 08:53

Отлично написано, и все понятно. Автору плюсеги и спасибо :)

Meshok 9 июл 2008 в 09:07

Попробую поставить к себе в поиск на аукцион фолбэкомм. У меня около 20% запросов с ошибками и еще 10% необходимо транслитирировать.

life4beer 9 июл 2008 в 09:13

респектище! вот только возник вопрос, а что с умляутами? там в таблице только пару букв с закорючками. я так понимаю, должна быть где-то табличка замены всех этих буковок с точками/черточками на стандартную латиницу?

Meshok 9 июл 2008 в 09:38

С нокией незадача.

нокия: 654000
nokia: 650000

Может надо еще эти ия иа учитывать?

provocateur 9 июл 2008 в 12:42

Да, есть некоторые исключения, но это легко подогнать под задачу - чуть усовершенствовать функцию транслитерации, чтобы двойной звук "й" после гласной не кодировать - из звучащего в транслите nokija/нокийа должно получится nokia/нокиа. Оставляю тюнинг на усмотрение тех, кто захочет попробовать этот поиск. )

life4beer 9 июл 2008 в 14:47

Меня больше удивило:
Bill: 780000
Paul: 780000
Тут я даже не знаю в какую сторону тюнить:)

life4beer 9 июл 2008 в 14:45

Для Perl есть готовый модуль Text::Phonetic::DaitchMokotoff
Так вот там, результат не код, а массив кодов (потому что "Some strings in the Daitch-Mokotoff algorithm produce ambigous results"). Для транслитерированного "нокия" результат - 2 кода: 654000 и 650000.

provocateur 9 июл 2008 в 14:51

Да, можно выдавать оба возможных варианта - если кому-то захочется, можно приписать пару строк. Мне проще работать с теми языками, на которых я умею говорить, поэтому сделал, как сделал.

life4beer 9 июл 2008 в 14:59

Ну, честно говоря непонятно, почему вы при транслитерации меняете Й на J, а далее как русский аналог J у вас выступает DZH. Правильнее тогда-бы пожалуй было транслитерировать Й в другую букву (последовательность букв).

provocateur 9 июл 2008 в 15:08

Так я о том и написал четырьмя коментами выше. Почему - потому что мне на тот момент было выгоднее, чтобы Johnson == Джонсон, а не Johnson == Йонсон. Т.е. надо или тюнить транслит, или сами коды, или выдавать несколько возможных вариантов (последнее - правильный подход, но учитывая, что такой поиск используется, как фолбэк, когда нет точных совпадений, все в меру разумно... и Bill/Paul по той же причине я не рассматривал, потому что по таким вещам обычно не опечатываются и редко ищут - короткий запрос. А вот по MacCartnie, McCartney, Маккартни, Мокартни - самое то )). Спасибо за коменты, радует то, что многим все-таки не лень разобраться в теме.

provocateur 9 июл 2008 в 15:10

В самой таблице (не в коде, а в html-таблице) я все же оставил оба возможных варианта для референса...

life4beer 9 июл 2008 в 15:39

Johnson = Джонсон - вопросов нет:) Если вариант с несколькими кодами не прокатывает, то тюнить надо функцию транслит. Я у себя кроме й->j еще кое какие варианты затюнил.
По поводу Bill/Paul это еще что, я вот на повеселее вариант наткнулся.
Есть такая актриса Zawieruszanka (479465). Так вот Schwarzenegger (479465) ее фонетический родственник:)

5ap 9 июл 2008 в 09:47

Очень нравятся статьи написаны в доходчивой форме как эта )
Спасиба!

pav 9 июл 2008 в 09:56

Спасибо большое за ликбез!

zaartix 9 июл 2008 в 10:00

преподнесено в меру вульгарно и весьма доходчиво, читалось легко. Спасибо )

НЛО прилетело и опубликовало эту надпись здесь

Pokoinik 9 июл 2008 в 11:04

вряд ли он поможет при этом...
посмотри в сторону phpmorphy

provocateur 9 июл 2008 в 12:28

По правилам такие слова кодируются, как если бы они были без пробела, но потребуется внести дополнительные изменения, чтобы получить ожидаемый результат для Вашего конкретного случая использования.

Error_403_Forbidden 9 июл 2008 в 10:54

А я когда-то читал про русский Soundex здесь http://community.livejournal.com/ru_php/…

q_styler 9 июл 2008 в 11:28

Блин =)
Привинтил к поиску на сайте. Решил поискать.
Набрал, естественно, слово «хуй». Вылетел эксэпшон.
Методом научного тыка установил, что функция работает, если строка содержит пять или больше символов.
Сейчас попробую разобраться, почему так.

provocateur 9 июл 2008 в 12:27

От четырех символов, если быть точным. Большинство слов до 4 символов не нуждаются в поддержке со стороны такого поиска, потому что либо достаточно коротки, чтобы быть написанными без опечаток, либо попадают в разряд "stopwords" (артикли, предлоги, местоимения и всякие другие короткие слова). В принципе, все это можно тюнинговать, там в коде эти ограничения видны. Ваше, в частности, надо поменять в preg_replace

q_styler 9 июл 2008 в 12:29

а я уже сам догадался
к тому же все короткие слова очень похожи ) поэтому ищешь «хуй», а находишь «мел»
Ну это грубо говоря.
А вообще ещё раз спасибо. Весь день сижу и играюсь: ищу всякое )

biggieman 9 июл 2008 в 18:08

Неприлично же) Хоть бы звёздочку поставили =)

acy 9 июл 2008 в 15:09

Это прям нереально крутая штуковина, господа!
Будем думать и внедрять)

prairie_dog 9 июл 2008 в 16:34

Вы меня, конечно, извините. Но я не понял как вы осуществили поиск? Не добавили же дополнительные поля в DB, где весь текст был в кодах, и по нему осуществлялся бы поиск.

life4beer 9 июл 2008 в 20:23

ну, если это поиск по базе людей, то не проблема к колонкам имя и фамилия добавить еще 2 с кодами

НЛО прилетело и опубликовало эту надпись здесь

playground 10 июл 2008 в 09:29

Очень интересно, только исходник функций пропал куда-то.

provocateur 10 июл 2008 в 14:34

Поправил, перезалил исходник.

playground 10 июл 2008 в 14:37

Спасибо.

corum 10 июл 2008 в 11:16

Сэр, благодарю за интересный пост!

DEHisOK 11 июл 2008 в 21:33

Спасибо!
Интересненькое дело!
Будет необходимость - поиграюсь!
Пока что, просто на заметку!
Спасибо! )

kurokikaze 12 июл 2008 в 11:32

А у меня опять всё не слава богу. Одни нули теперь показывает.

kurokikaze 12 июл 2008 в 12:09

Верните старый код :) Этот не работает. А то я с работы скачал - всё пахало, уже на апач грешить стал. Ан нет.

provocateur 12 июл 2008 в 14:52

Вернул, плохо скопипастил, пардон.

zaartix 15 июл 2008 в 11:16

описание==общение
:(

zaartix 15 июл 2008 в 12:23

заказ==секс
световой==свадьба
хостинг==гостиница
музыка==месяц
видео==фото :))

etc 15 июл 2008 в 16:55

Никогда бы не догадался, респект :) Но, судя по комментом, много косяков? :) Интересно, как на Yandex и др. сервисах пашет фича "Возможно вы имели ввиду".

provocateur 15 июл 2008 в 20:18

Насчет косяков - я там выше написал, что это фолбэк-онли. И применяется в основном к именам собственным.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий