ntz4 мар 2011 в 17:53

Фонетические алгоритмы

9 мин

49K

Алгоритмы *

Из песочницы

+151

Комментарии 35

KriegeR 4 мар 2011 в 18:39

Отличная статья!

Maxima 4 мар 2011 в 18:39

Юзал Soundex правда не помню какой именно.
Но реально очень удобно.

uxIg 4 мар 2011 в 18:48

Удобно. Радует что есть поддержка Soundex'a MySQL'ом, но нет поддержки русских произношений…

Maxima 4 мар 2011 в 18:50

Ой, а я как-то её делал, надо поискать в скриптах, пару лет назад было дело.

uxIg 4 мар 2011 в 18:52

Да можно… Но хотелось бы чтобы это было на уровне MySQL.

Maxima 4 мар 2011 в 18:54

Да об этом я и не мечтал :-)
Поиск без Soundex (или его аналогов) просто издевательство.

НЛО прилетело и опубликовало эту надпись здесь

AnastasiaK 4 мар 2011 в 18:53

Раньше не встречала таких алгоритмов, очень интересно было почитать, спасибо.

ntz 4 мар 2011 в 19:19

В логике этих алгоритмов нет ничего сложного, и они легко реализуются в виде хранимых подпрограмм (или каких-либо других расширений) для большинства СУБД.

Вообще, не совсем понятно, почему во многих системах используется именно Soundex, ведь он по многим параметрам уступает остальным алгоритмом, тому же Metaphone, например. Да, его реализация немного проще, но это — ничто по сравнению с качеством результатов.

zen 4 мар 2011 в 19:19

Что же вы забыли n-grams! В отличие от всех рассмотренных алгоритмов, n-граммы поддерживают индексный поиск. Мы написали для постгреса такой модуль, который доступен в дистрибутиве, а совсем недавно, этот же индекс ускоряет *pattern*!

ntz 4 мар 2011 в 19:25

Вы немного путаете области — метод n-грамм (если говорить о подстроках фиксированной длины n) относится к нечеткому поиску, который обычно не затрагивает фонетических аспектов, и больше основывается на понятиях метрик (Левенштейна, например).

Кроме того, все представленные алгоритмы позволяют проводить индексирование по значению кода как по обычным словам, а индексирование в методе n-грамм — совершенной иной процесс.

zen 4 мар 2011 в 19:33

Извините, не обратил внимание на топик :) Но, можно было бы упомянуть, что помимо фонетических алгоритмов есть и другие.

catbegemot 5 мар 2011 в 20:30

Напишите статью, я думаю не только я буду благодарен.

ntz 7 мар 2011 в 13:38

Уже пишу!

НЛО прилетело и опубликовало эту надпись здесь

bogus92 4 мар 2011 в 19:33

На первом курсе писал курсовую работу, в которой реализовывал компьютера-собеседника. Использовал Soundex для сравнения слов со словарем. Русский текст просто транслитерировал латиницей и применял алгоритм. Результат получался довольно неплохим.

57DeD 4 мар 2011 в 22:20

Занятно, что ни один из алгоритмов не учитывает ударения. В результате русские фамилии на -ин от армянских отличит только русский Metaphone. Интересно, этого сознательно добивались?

qmax 5 мар 2011 в 01:51

обоже!
это вот именно то, что генерит «Возможно, вы имели в виду: Шварценеггер»?

Inskin 5 мар 2011 в 07:45

«Зачитываю по буквам — сы-цы-хы-варзенеггер» )

AStahl 5 мар 2011 в 06:46

Любопытные алгоритмы.
А вот ещё более интересная реализация (алгоритм вряд ли имеет название ибо самопальный).
Например:
nanohertz.net/?word=%D1%85%D1%80%D0%BE%D0%BD%D0%BE%D1%84%D0%B0%D0%B7%D0%B8%D1%82%D1%80%D0%BE%D0%BD

Если будете играться, то примите во внимание, что система обучена русским и английским словам, но не знает ни имён ни ругательств.
Если система выдаёт казалось бы бредовый результат, перед тем как писать «автор — козёл, код не работает» проверьте наличие искомого слова в БД путём ввода корректного написания этого слова.

sergpenza 5 мар 2011 в 07:10

На Хабре публиковалась реализация daitch-mokotoff на php
Использую в своих проектах, по сравнению с soundex просто небо и земля.

sergpenza 5 мар 2011 в 10:27

Подумал, что может быть интересно для чего :)
Я использую daitch-mokotoff для исправления опечаток в поисковых запросах.
Вкратце реализовано это так: есть таблица, в которой хранятся слова в базовой форме (используется словарь морфологии) и их фонетический вид по daitch-mokotoff
При поиске для каждого слова пытаемся словарем найти базовую форму. Если такой нет, предполагаем, что человек ошибся, получаем фонетический вид поискового слова и выбираем из таблицы все слова с таким же видом. После чего для поискового слова и слова из запроса вычисляется расстояние по Левенштайну (минимальное количество вставок, замен и удалений символов, необходимое для преобразования str1 в str2) и находим самое близкое слово.
Плохо работает для имен собственных, но на общеупотреблительных фразах — весьма, весьма.

javascript 5 авг 2011 в 09:50

Теперь эта же реализация на javascript :-)

eng 5 мар 2011 в 08:10

А нет ли ошибки в примерах для Daitch-Mokotoff Soundex?

095747 → Архипцев, Архипцов, Архипычев, Арцыбасов, Арцыбашев, Арчибасов
095757 → Архипков, Архипцев, Архипцов, Архипычев

Одна фамилия (например. Архипцев) соответствует двум кодам.

ntz 5 мар 2011 в 09:33

Daitch-Mokotoff Soundex может сопоставлять одному слову несколько кодов, если возможно альтернативное произношение (такие альтернативы приведены в описании).

loginsin 5 мар 2011 в 10:15

Однако если захочется найти именно «Швардсенеггера», придется попотеть. Гугл со своими фонетизмами некоторые фразы (даже с кавычками) отказывается искать. Например: «operator+ C++» (пример из головы).

loginsin 5 мар 2011 в 10:17

Этот находит, а вот «operator[] c++» уже нет. Показывает общую информацию по операторам (не только по операторам operator).

Curious_Vik 5 мар 2011 в 10:20

Такой вопрос:
Существуют ли какие-то фонетические алгоритмы (или реализации описанных), которые могут измерять расстояние между словами? Иногда хотелось бы проводить ранжирование слов по схожести произношения…

ntz 5 мар 2011 в 15:28

Если я не ошибаюсь, специализированных алгоритмов для этого нет. Однако, можно попытаться приспособить уже существующие алгоритмы к подсчету количества преобразований, необходимых для приведения одного слова ко второму, правда я не очень хорошо себе представляю, как это возможно за оптимальное время сделать.

catbegemot 5 мар 2011 в 20:33

Исходя из вашего текста наиболее точно (в случае англоязычных фамилий) попадает NYSIIS — не смотря на то, что он не самый новый. Или я не правильно оцениваю результаты?

ntz 6 мар 2011 в 09:30

Сложно сказать. Нужно проводить тестирование, сравнение, и, опять же, без участия человека сложно выяснить, насколько точным является результат. По примерам также нельзя объективно оценить качество.

Кроме того, меньше слов с одинаковым кодом — еще не значит лучше, так как в результат могут не попасть действительно похожие слова.

Одно ясно точно — будь NYSIIS наилучшим вариантом, не стали бы изобретать новые алгоритмы.

НЛО прилетело и опубликовало эту надпись здесь

kolipass 12 ноя 2015 в 13:15

Сделал небольшой форк примера из статьи.
За прошедшее время в apache commons codec появилась своя реализация NYSIIS

pilligrim 12 фев 2019 в 16:02

Если вдруг захочется дополнить реализациями на разных языках
https://github.com/Betawolf/Phonetics.jl

Это библиотека на Julia

Soundex
— Fuzzy Soundex
— Phonex
— Phonix
— The New York State Identification and Intelligence System (NYSIIS)
— The Census Modified Statistics Canada procedure
— The Match Rating Approach
— Lein
— Caverphone
— Roger Root
— Metaphone
— Double Metaphone

Зарегистрируйтесь на Хабре, чтобы оставить комментарий