@mishadoff2 апр 2012 в 07:36

Алгоритмы сегментации текста

4 мин

15K

Data Mining *

Из песочницы

+39

Комментарии 15

@retran 2 апр 2012 в 07:56

А чем вас не устроили Байес и вариации на тему fuzzy matching?

@mishadoff 2 апр 2012 в 08:45

fuzzy matching, даже с расстоянием 1, очень затратная операция, а процент ошибок в тегах намного ниже, чем в обычном тексте.

@lightcaster 2 апр 2012 в 09:54

А как разбить, если в слове ошибка? :)

@mishadoff 2 апр 2012 в 10:41

Никак. Мы потеряем этот хештег. Тут уже надо определить что важнее: поймать ошибку в одном слове из тысячи или не потерять производительность.

@dmitry_vk 2 апр 2012 в 08:20

>Теперь частота биграма in put в нашей модели нулевая.

Это вам потом будет доставлять проблемы (в частности, будет отсеивать очень хорошие разбиения слов, где встречаются не виденные ранее комбинации слов из-за умножения на ноль). Лучше, чтобы была маленькая вероятность, а не нулевая. Для этого надо делать сглаживание модели текста.

@mishadoff 2 апр 2012 в 08:29

Я не вдавался в детали сглаживания, конечно же там add-one smoothing

@dmitry_vk 2 апр 2012 в 08:37

OK, но фраза «теперь частота нулевая» немного смущает.

@1010101001000100110100111 5 июл 2012 в 07:32

А, как насчет «PUT IN» -> «PUTIN»?
У кого из них вероятность длиннее?

@Dimchansky 2 апр 2012 в 09:06

Для решения такой задачи используется n-грамная модель и Алгоритм Витерби.

@schroeder 2 апр 2012 в 10:33

а можно поподробней?

@Dimchansky 2 апр 2012 в 10:57

Поподробней и на русском это была бы, наверное, отдельная статья.
Такая задача предлагалась в книге Питера Норвига «Искусственный интеллект: современный подход».

Write a program to do segmentation of words without spaces. Given a string, such
as the URL «thelongcstlistofthelongeststuffatthelongestdornainnameatlonglast.corn,» return a
list of component words: [«the,» «longest,» «list,» ...]. This task is useful for parsing URLs,
for spelling correction when words =together, and for languages such as Chinese that do
not have spaces between words. It can be solved with a unigram or bigram word model and
a dynamic programming algorithm similar to the Viterbi algorithm.

Пример решения этой задачи на Python можно посмотреть здесь. См. классы UnigramTextModel, NgramTextModel и функцию viterbi_segment.

@StrangeAttractor 2 апр 2012 в 13:26

Я же могу понять что dwarfstealorcore это скорей всего «дварф крадет руду орков»

«dwarf steals orcs' ore» тогда. Или задача стоит с ошибками тоже справляться?

@mishadoff 2 апр 2012 в 14:06

Нет, это я так чтоб идею показать.
Пускай будет «дварф красть орк руда»

@1010101001000100110100111 3 апр 2012 в 04:34

Напомнило: windowsupdate -> окно-глоток-дата

@mishadoff 3 апр 2012 в 09:01

Алгоритм на стороне microsoft :)

Зарегистрируйтесь на Хабре, чтобы оставить комментарий