xmoonlight26 сен 2012 в 16:59

Определение части речи слова на PHP одной функцией

3 мин

41K

PHP * Алгоритмы * Программирование *

Из песочницы

+45

Комментарии 89

Noker 26 сен 2012 в 17:04

А где это вообще можно применить?

xmoonlight 26 сен 2012 в 17:47

ключевые словосочетания на основе частей речи, формирование БД сущностей (существ.) и связей (глаголы) (с доработкой соотв.) для анализа ядра текстов и их дальнейшей автоматической сортировки по заданным критериям, чат-триггеры и т.п.

briskly 27 сен 2012 в 18:39

очень примитивная реализация.
Вам стоит взглянуть сюда и сюда

xmoonlight 27 сен 2012 в 19:17

Для анализа текста эта функция подойдет в 100% случаев. Т.к. при этом не происходит четкого сравнения, а лишь подсчет количества (частей речи, слов, букв и т.д.) и получение отношения одного количественного параметра к другому (веса).
Функция не рассчитана на 100% разбор предложения по частям речи, т.к. это решается только со словарями.
Предсказание порядка следований частей речи в предложении скоро выложу.

PavloG 26 сен 2012 в 17:35

Незнаю насколько это правдивая история, но тем не менее:
В какойто программе делали определение пола по имени и фамилии
Но программа время от времени выдавала неправильный результат, после долгих мучений добавили еще допонительное поле «отчество»
Если отчество заканчивалось на «ич» то мужского пола если на «на» то женского.

Я к чему — ваш код всеравно будет выдавать ошибки и от этого никак не избавится. Работать будет только если есть однозначный критерий правильности.

xmoonlight 26 сен 2012 в 17:59

Однозначного — пока нет. Нужно стремиться к этому. Планирую по словосочетаниям в дальнейшем снижать вероятность ошибок (отталкиваясь от фразопостроения в рус. яз.).

putnik 26 сен 2012 в 20:50

Видимо, поле «пол» им религия не позволила добавить.

PavloG 26 сен 2012 в 20:53

История умалчивает.

shoorick 27 сен 2012 в 04:01

Для пишущих на перле есть модуль Lingua::RU::Inflect — он позволяет, помимо основной своей функции — склонения, ещё и определять пол по имени.

Пол определяется следующим образом:

1. Если есть отчество, пол однозначно определяется по нему.

2. Проверяем имя:

2.1. Некоторые мужские имена оканчиваются на -а, а женские — нет (Никита, Илья, Любовь) — проверяем имя на попадание в такой список исключений. Если имя есть среди исключений — пол определён.

2.2. Есть имена (Женя, Саша, Валя), по которым пол нельзя определить — смотрим, не является ли имя именно таким. Если не является — проверяем окончание: женские имена заканчиваются на -а, -я, мужские — на согласную.

3. Переходим к проверке по фамилии: фамилии, кончающиеся на -ева, -ина, -ына, -ёва, -ова, -ая, -яя — женские, на -ев, -ин, -ын, -ёв, -ов, -ий, -ый — мужские.

4. Если попали сюда, значит, пол нельзя определить — подобный алгоритм не может справиться с такими именами как Саша Петренко или Женя Кац.

colonel 27 сен 2012 в 04:12

4. С этими именами никто не справится, не то что алгоритм

sergeypid 27 сен 2012 в 06:50

Ваш текст содержит слишком много ошибок, а вы беретесь судить попытку человека сделать полезную функцию для обработки русского языка.

PavloG 27 сен 2012 в 08:29

Никто никого не судит.

HangGlider 27 сен 2012 в 07:13

Одна из моих школьных олимпиадных задачек. :) эх

gaelpa 26 сен 2012 в 17:38

Слово «Маршировать» — это разве не глагол?
Не пробовали делать массовое тестирование на большой базе слов с известными частями речи?

gaelpa 26 сен 2012 в 17:43

А, да, еще со знаками препинания в коде проблема. Если помним, то в русском языке запятые, и т.п. ставятся сразу после слова, что выведет из строя логику сравнения.
Зато вы подкинули мне любопытную идею: сервис типа гитхаба, но с редактированием в реалтайме — может получиться забавно.

xmoonlight 26 сен 2012 в 17:51

Апдейт выложу позже. Доработать надо код.
Массово — не пробовал. Прорабатываю алгоритм.
Скорее всего будет дерево весов частей слова, далее — соседних словосочетаний (по частям речи на пред. уровне) и т.д.

gaelpa 26 сен 2012 в 17:56

Я переживаю, что вам могут слить топик и энтузиазм за компанию за то время, что вы будете дорабатывать код из этого состояния в что-то более-менее соответствующее.

xmoonlight 26 сен 2012 в 18:22

Я постараюсь побыстрее. А «слить энтузиазм за компанию» — это вряд ли.

badchemist 26 сен 2012 в 22:20

Ну, это не только в русском, да и не все знаки препинания (например, тире отбиваются пробелами с обеих сторон). И, кстати, если уж говорить о знаках препинания, то пришла в голову мысль: такая система должна уметь обрабатывать не только правильно написанные тексты, но и тексты людей, которые зачем-то ставят знаки препинания нетрадиционным способом, например, вот так, или даже так.

badchemist 26 сен 2012 в 22:21

Хм, а парсер молодец — мои примеры ужасной расстановки пробелов вокруг запятых пофиксил. :D

Kalobok 26 сен 2012 в 17:48

Да что там говорить. Всем известное слово из трех букв, оказывается, глагол. Наверное, повелительное наклонение от «ховать» (прятать). :)

m03r 26 сен 2012 в 20:02

<irony>А каким образом здесь замешано панковское приветствие?</irony>

DROS 26 сен 2012 в 17:43

Я бы еще знаки препинания вырезал бы. С ними начинается неадекват.

marcus 26 сен 2012 в 17:49

print_r(chastrechiRUS('Существительное'));

Array
(
[0] => 1
)

Xlab 26 сен 2012 в 18:09

Существительное-пресуществительное существительное

xmoonlight 26 сен 2012 в 18:29

Подразумевается, что текст — нормальный: обработанный на предмет повторов (similarity) и содержащий не менее двух слов для дальнейшего анализа соседних частей речи.

xmoonlight 26 сен 2012 в 19:59

Здесь: либо 2 и более слова, либо словарь исключений. По-другому — не знаю пока как…

DarthSim 26 сен 2012 в 18:59

«Косил косой косой косой» — удачи в распознавании ;)

ASP 26 сен 2012 в 19:13

самый убойный комментарий для приведенного кода

xmoonlight 26 сен 2012 в 19:36

Спасибо! Допишу на след. этапе (когда деревья будут):
/*
Группы окончаний:
1. прилагательное
2. причастие
3. глагол
4. существительное
*/

Замены порядков частей речи:
3111=>3414 (3441) — «Косил косой косой косой»
1311=>4314 (4341) — «косой Косил косой косой»
1131=>1434 (4134) — «косой косой Косил косой»
1113=>1443 (4143) — «косой косой косой Косил»

В скобках — вероятность такого порядка следования частей речи меньше.

lair 26 сен 2012 в 20:46

А кто вам сказал, что «косой» — это существительное (в именительном падеже)?

xmoonlight 26 сен 2012 в 20:51

Косой — это сущ. в творительном падеже (или именительном) или прилагательное ед. числа муж.рода. Функция падеж не определяет.
Я что-то упустил?

lair 26 сен 2012 в 20:53

Косой — это не существительное в именительном падеже, а прилагательное. В том числе и в данном предложении. Поэтому все ваши варианты трактовки с двумя существительными ошибочны.

xmoonlight 26 сен 2012 в 21:04

Если брать предложение, то НЕТ. Если просто набор слов — ДА.

lair 26 сен 2012 в 21:08

Вы, простите, роль слова в предложении (подлежащее) с его, собственно, частью речи (прилагательное) не путаете?

xmoonlight 26 сен 2012 в 21:16

Нет.
«данные на носителе» — «данные» — сущ.
«данные строки» — «данные» — прил.

lair 26 сен 2012 в 21:17

Слово «данные» и слово «косой» — это два разных слова. То, что верно для одного, не обязательно верно для другого.

xmoonlight 26 сен 2012 в 21:19

Ок. Какие будут предложения по правильной идентификации частей речи?

lair 26 сен 2012 в 21:21

Я же говорю: в этом предложении два прилагательных, глагол и одно существительное. А вот как вы их будете распознавать (учитывая, что даже человек этого не может) — я не знаю.

xmoonlight 26 сен 2012 в 21:28

Т.к. это редкий случай, когда два одинаковых прилагательных в одном предложении, и прилагательное имеет меньший вес (чем сущ. или глагол), можно опираться на замены, указанные выше.
Как иначе — я пока тоже не знаю.

lair 27 сен 2012 в 08:16

Прилагательное имеет меньший вес -> получили три существительных.

bachin 27 сен 2012 в 05:45

запер замок на замок
чтобы замок не замок

xmoonlight 27 сен 2012 в 12:26

Это пять!
Думаю как детектить…

AGvin 26 сен 2012 в 19:09

На данном примере, лучше использовать другую структуру массива окончаний. Если я не ошибаюсь, оптимальней будет вот-так:
(… заранее, простите за выравнивание текста, хабра не дает проставить отступы =) вот с отступами: pastebin.ubuntu.com/1229060/ )

function chastrechiRUS($string) {
$endings = ['ыми' => 1, 'ей'=> 1, 'ий' => 1,… ,'ивш' => 2, 'ывш' => 2, 'ующ'=>2,… ];
$endings_length = [2,3];
$ret_data = array();
$words = explode(' ',$string);
foreach ($words as $wk => $w) {
$ret_data[$wk] = 0;
foreach ($endings_length as $length) {
$tmp_ending = substr($w,-$length);
if (isset($endings[$tmp_ending])) {
$ret_data[$wk] = $endings[$tmp_ending];
break;
}
}

}
return array_reverse($ret_data);
}

ilyaplot 26 сен 2012 в 19:28

source не удаляет отступы

ilyaplot 26 сен 2012 в 19:29

function chastrechiRUS($string) {
    	    $endings = ['ыми' => 1, 'ей'=> 1, 'ий' => 1, ... ,'ивш' => 2, 'ывш' => 2, 'ующ'=>2, ... ];
	$endings_length = [2,3];
	$ret_data = array();
	$words = explode(' ',$string);
	foreach ($words as $wk => $w) {
		$ret_data[$wk] = 0;
		foreach ($endings_length as $length) {
			$tmp_ending = substr($w,-$length);
			if (isset($endings[$tmp_ending])) {
				$ret_data[$wk] = $endings[$tmp_ending];
				break;
			}
		}
	

	}
	return array_reverse($ret_data);
}

AGvin 26 сен 2012 в 20:12

Сейчас мне source не поможет… Все дело из-за отрицательной кармы =(

xmoonlight 26 сен 2012 в 19:51

Вполне возможно. Я делал прям «влоб» из http://habrahabr.ru/qa/2410/

KAndy 26 сен 2012 в 19:32

Фраза «Определение, конечно не 100%, но можно легко дорабатывать» вряд ли может вызвать что то кроме улыбки, для тех кому действительно интересна эта тема.
Хочу предложить Вам сравнить роботу своего скрипта с phpMorphy

xmoonlight 26 сен 2012 в 19:46

Как я понял: у Вас идет работа со словарями. Это совсем другой путь реализации этой задачи.
Т.е. если слова в словаре нет, то оно уже не будет распознано? Или я ошибаюсь?

KAndy 26 сен 2012 в 20:50

Ну это не мой проект
Но насколько я понял, там смесь дерева выбора и алгоритмов предсказания
Вы не думали что самый лучший вариант решения задачи будет использовать какой то алгоритм с обучением (например нейронную сеть), это позволит например снимать морфологическую омонимии на основе близлежащих слов
Если интересна тема, можете причитать дисертацию «Морфологическая и синтаксическая обработка текста (модели и программы)»

xmoonlight 26 сен 2012 в 21:11

95% точности… это не 100% (стр.80)

KAndy 26 сен 2012 в 21:27

А Вы решили сделать 100%?
Ну как сделаете, следующим логическим шагом будет сделать поисковик/переводчик с 100% правильной работой
~~Не забивайте себе голову глупостями, ложитесь спать, завтра рано в школу~~

xmoonlight 26 сен 2012 в 21:32

Для начала — хотя бы выше 95%

SuperKozel 26 сен 2012 в 22:49

а нет ощущения, что это — принципиально не правильный подход к проблеме? Пытаться найти универсальные закономерности в системе, в которой изменения происходят бесконтрольно, хаотично. Бесконечное множество исключений из правил. А пытаться учесть исключения, значит получить тот же словарь, только в виде костылей

xmoonlight 26 сен 2012 в 22:57

По-логике — исключений должно быть меньше. (ИМХО)

kmike 26 сен 2012 в 23:09

Множество исключений вполне конечно, и закономерности там есть.

Но подход в статье и правда принципиально неправильный: выдумывать эти закономерности от балды — вместо того, чтобы выявить их из словаря + возможно, какой-то частотной статистики. Тут, в принципе, код анализатора даже имел бы право на жизнь, если б данные не от балды были, а какие-то осмысленные.

xmoonlight 26 сен 2012 в 23:26

Это — да. Код писался для 90-95% случаев. Остальные — это уже «допиливание» до идеала.
(Функцию обновил только что)

kmike 26 сен 2012 в 23:55

… цифры 90-95% — это ведь тоже от балды)

Тут пока нечего допиливать. Вот добавили новое правило, как проверить, лучше стало разбирать или хуже (precision, recall)? А никак сейчас. Что-то, возможно, лучше стало разбирать, а что-то хуже. Добавили «тью» для числительных, солист Muse стал числительным.

Допиливание в текущем виде не приближает к идеалу (и imho является напрасной тратой времени), т.к. критериев для добавления/изменения/удаления правил нет.

Чтоб были критерии какие-то, нужна какая-то оценка качества разбора. Код нужно поэтому писать для оценки качества разбора (анализатор написали уже), а на основе этих оценок уже выбирать правила (если уж собрались их вручную собирать).

Самое простое — это прогнать словарь русского языка через функцию и посмотреть количество правильных — неправильных — лишних вариантов разбора (вот и выяснится, кого там больше, числительных или существительных с тью, и какое правило правильней добавить будет).

… и мы опять пришли к словарю — не проще-продуктивнее ли тогда написать программу, которая сама правила подберет, чтоб оценка разбора была максимальной, вместо того, чтоб пробовать правила самим?

xmoonlight 27 сен 2012 в 08:00

Да. Вы правы. Я протестирую параллельно двумя методами:
1. Метод bugfix'a (или видимые ошибки)
2. Анализ по словарю, построение правил и т.д.
А потом — сравню, какой лучше будет работать и сделаю выводы для улучшения.

kmike 26 сен 2012 в 22:21

Вы сейчас строите предсказатель на основе набора окончаний, а правила подбираете вручную на основании своих предположений и наблюдений.

Со словарем этот же набор правил (окончание => часть речи) можно построить автоматически, более полно и правильно (что и делается в phpmorphy и большинстве других морф. анализаторов для русского языка). Благо словари для русского языка доступные и хорошие: см., например, opencorpora.org/dict.php.

Кроме того, раз уж есть словарь, то необязательно полагаться только на предсказатель — если слово есть в словаре, то можно и точный разбор вернуть (ну с учетом неустранимой на уровне отдельных слов неоднозначности разбора).

z6Dabrata 26 сен 2012 в 19:49

Т.е. если заканчивается на «уй», то это глагол?

xmoonlight 26 сен 2012 в 19:56

Пока да…
Можно исправлять заменой (буду делать в след. версии функции), если нет запятых между словами:
3-3 => 3-4

swwwfactory 26 сен 2012 в 20:09

Интересная функция. Самое главное очень простая.

Вам надо добавить логику в алгоритм, реализующую как-бы ответ на вопрос. В частности это относится к определению глагола, важнейшей семантической составляющей означающей действие.

Поправьте пожалуйста код-функции: неудобно читать содержимое массива глаголов: хотел посмотреть наличие -ать, ять (вообще рекомендую использовать правила оформления кода PEAR, pear.php.net/package/PHP_CodeSniffer в помощь)

Далее придется использовать словари. Рекомендую DICT

xmoonlight 26 сен 2012 в 20:21

«реализующую как-бы ответ на вопрос» — пока планирую фильтр:
1. Веса по частям слов.
2. Порядок следования частей речи
3. Словари.
4. Тоновые соединения: цепочки частей речи и корни.

swwwfactory 26 сен 2012 в 21:37

отформатированный вариант Вашей функции:

function chastrechiRUS($string)
{
    /*
      Группы окончаний:
      1. прилагательное
      2. причастие
      3. глагол
      4. существительное
    */

    $groups 
        = array(
            1 => array('ее', 'ие', 'ые', 'ое', 'ими', 'ыми', 'ей', 
                  'ий', 'ый', 'ой', 'ем', 'им','ым','ом','его',
                  'ого','ему','ому','их','ых','ую','юю','ая',
                  'яя','ою','ею'),
            2 => array('ивш','ывш','ующ','ем','нн','вш','ющ',
                       'щ','ущи','ющи', 'ящий','щих','щие'),
            3 => array('ила','ыла','ена','ейте','уйте','ите',
                       'или','ыли','ей', 'уй','ил','ыл',
                       'им','ым','ен','ило','ыло','ено',
                       'ят','ует','уют','ит','ыт','ены','ить',
                       'ыть','ишь','ую','ю','ла','на','ете',
                       'йте','ли','й','л','ем','н','ло','но',
                       'ет','ют','ны','ть','ешь','нно'),
            4 => array ('а','ев','ов','ие','ье','е','иями',
                        'ями','ами','еи','ии','и','ией',
                        'ей','ой','ий','й','иям','ям','ием',
                        'ем','ам','ом','о','у','ах','иях',
                        'ях','ы','ь','ию','ью','ю','ия',
                        'ья','я','ок', 'мва', 'яна', 'ровать'),
        );

    $res=array();

    $words = explode(' ', $string);
    //print_r($words);
    foreach ($words as $wk=>$w) {
        foreach ($groups as $gk=>$g) {
            foreach ($g as $part) {
                if (substr($w, -strlen($part)) == $part 
                    && $res[$wk][$gk] < strlen($part) // любая часть речи, окончания
                    || stripos($w, $part)!==false 
                    && $gk == 2 //причастие, в любом месте слова
                ) {
                    $res[$wk][$gk] = strlen($part);
                }

            }
        }
        if (!isset($res[$wk][$gk])) {
            $res[$wk][$gk] = 0;
        }
    }


    $result = array();
    foreach ($res as $r) {
        arsort($r);
        array_push($result, key($r));
    }
    return $result;
}

xmoonlight 26 сен 2012 в 21:42

Да… Многое поменялось…

swwwfactory 26 сен 2012 в 21:46

Вы успели уже накодить много или код стал по другому восприниматься?

xmoonlight 26 сен 2012 в 21:53

Разница не особо велика и (ИМХО) мне удобнее, когда все && на одной строке, а || сначала строк в условиях.

swwwfactory 26 сен 2012 в 22:02

Когда используются переносы, легче воспринимается логика кода, проще восприятие, легко отлаживается, можно отключать блоки, переносить и копировать в другие части. Не забывайте, что другие будут изучать Ваш код. Идеальным считается код, когда другой человек может разобраться и внести правки без автора и автору будет понятно и остальным тоже.

Считается правилом хорошего тона правая граница 60-75-80 символов (у меня 75)
Если код не умещается, значит что-то не-так. Хорошая функция умещается на одной странице экрана редактора.

xmoonlight 26 сен 2012 в 22:08

Ок. Учту на будущее. Буду переносить и комментировать.

swwwfactory 26 сен 2012 в 22:18

Вот так правильно. Самому будет легче. Первые 10 лет тяжело потом привыкаешь :)

Если код не отформатирован валидно, то это может говорить о следующем: спешка, нет нормального редактора, новичок, недостатки самовоспитания, поверхностное отношение, отсутствие стандартов, одиночка.

На настоящий момент наиболее популярны следующие редакторы, которые пробовал для php: emacs, eclipse (pdt), netbeans, editplus, dev-util/kdevelop-php

xmoonlight 26 сен 2012 в 22:51

Но я пишу код в Far 2.0 с плагином FarColorer (см.тут) и мне вполне удобно.

swwwfactory 26 сен 2012 в 23:00

Да, неплохой редактор. К нему тоже можно прикрутить много чего. Так сказать облагородить.

M1nstrel 27 сен 2012 в 00:35

Добавлю еще PhpStorm. Отлично форматирует прямо «из коробки». Можно, конечно, и свои стандарты кодирования настроить — все достаточно гибко.

swwwfactory 27 сен 2012 в 00:44

наслышан про него

swwwfactory 27 сен 2012 в 00:52

Ничего так. Жаль, что закрытый и java. У меня как java стартует, сразу образуется неубираемый своп, который еще и растет со временем, независимо от того использую еще джава-приложение или давно уже вышел. Это одна из причин моего перехода на emacs с долгого использование eclipse. Стоит до сих пор, жалко сносить, иногда пользую.

M1nstrel 27 сен 2012 в 04:46

Рекомендую почитать комментарии к этому топику.
Emacs — текстовый редактор.
PhpStorm — IDE.
Каждый решает сам, где работать, но IDE дает больше возможностей. Вот хотя бы несколько из них:

Рефакторинг
Быстрые переходы
Удобная интеграция с VCS

mishadoff 27 сен 2012 в 08:46

«в емаксе есть всё… кроме текстовго редактора»

skvorets 26 сен 2012 в 21:33

Когда я прорабатывал эту тему для английского языка, то на основе достаточно большого размеченного корпуса составил статистическую базу триграмм последовательностей частей речи. Вышла она (давно было, не помню) килобайт 10. Эта база повышала вероятность определения частей речи омонимов в спорных ситуациях определения части речи. Это по сути цепи Маркова.
Я про то, что этот подход тут очень даже применим. В гугле это — «trigram tagger».

xmoonlight 26 сен 2012 в 21:37

Да. Спасибо!
Уже прочитал по совету KAndy (пост)
Это однозначно буду делать.

rinat_crone 26 сен 2012 в 23:49

Вы ведь знаете про github и pull-requests? Очень странно видеть на хабре топик «а давайте покодим вместе в комментариях», когда для этого есть специализированные инструменты.

kzn 27 сен 2012 в 05:46

То, что вы делаете называется POS tagger.

Вы предлагаете фактически правиловый подход к идентификации части речи. Логичным следующим шагом будет тот же правиловый подход для разрешения неоднозначности вроде «Мама мыла раму», где «мыла» — что глагол? существительное?

Лучше посмотреть на современные исследования в этой области.

unwrecker 27 сен 2012 в 07:09

А нет ли скриптика для склонения словосочетаний на PHP? Яндекс-склонятор нормально склоняет только отдельные слова, да и плохо подходит из-за онлайновости.

nogoody 27 сен 2012 в 07:15

Пример из одной книжки:

Эти типы стали есть на складе

mishadoff 27 сен 2012 в 08:37

Определение, конечно не 100%, но можно легко дорабатывать.

Тяжело дорабатывать. Вплоть до того, что у вас будет протегированый весь словарь. Это ж сколько правил.
И даже это не даст хороших результатов.
Часть речи обычно очень сильно зависит от контекста, который у вас, как я понимаю, никак не учитывается. Как по мне, лучше сочетать rule-based подход со статистическим.

xmoonlight 27 сен 2012 в 10:31

«Часть речи обычно очень сильно зависит от контекста, который у вас, как я понимаю, никак не учитывается»
Да. Сделаю в обновлении.

«лучше сочетать rule-based подход со статистическим»
и взвешивать результат между тем и тем.
ДА. Все верно.

m00t 27 сен 2012 в 17:06

Не принимайте близко к сердцу, но… У вас совершенно неадекватные представления о сложности морфологии русского языка… То, что вы делаете сейчас абсолютно так же, но насколько это возможно лучше делает PHPMorphy. Насколько я знаю, у него тоже много правил окончаний + списки исключений. Поверьте, сделать существенно лучше чем у них морфологию не получится. Это мы говорим про чистую морфологию — узнать часть речи и форму по одному слову.
Далее: «Косил косой косой косой», тут уже функцией с правилами на PHP не обойдешься. Тут, как правильно вы заметили, нужно строить деревья синтаксического разбора, выбирать более подходящие из них, на основании этого уточнять морфологические приметы слов, потом выбирать то дерево, которое нам больше нравится и т.д. Работы много. Очень много. Посмотрите на aot.ru — ребята этим занимаются на C++ в свободное время: кода много, словарей много, правил много — а результат не то чтобы сильно крутой был. Ну т.е. простые предложения оно распознает, а вот со сложными начинаются проблемы.
Повторюсь еще раз: у вас абсолютно неадекватное представление о сложности подобных библиотек и завышенные представления о своих возможностях. Не принимайте близко к сердцу. Покрутите PHPMorphy, если вам его возможностей будет мало — идите на aot.ru, покрутите их либы. Более крутого из опенсорсного, насколько я знаю (уже несколько лет не интересовался этой темой) вы не найдете. И конечно же не напишете, если только у вас нету штата лингвистов, программистов и денег им на хлеб с маслом на несколько лет.

xmoonlight 27 сен 2012 в 17:36

Весы: скорость и точность…
Пока Вы будете строить себе лифт, я поднимусь уже по лестнице.
А вообще — все по-делу написано.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий