Определение части речи слова на PHP одной функцией / Хабр

Прочитав пост http://toster.ru/2410/, я написал функцию, которая определяет из строки слов их части речи. Определение, конечно не 100%, но можно легко дорабатывать.

Функция возвращает массив значений групп:

1. прилагательное
2. причастие
3. глагол
4. существительное
5. наречие
6. числительное
7. союз
8. предлог

Пример вызова функции:

print_r(chastrechiRUS('В небе летит красивый сверкающий самолёт'));

Результат работы функции (массив):

Array ( [0] => 8 [1] => 4 [2] => 3 [3] => 1 [4] => 2 [5] => 4 )

Код функции:

function chastrechiRUS($string){

 /*
 Группы окончаний:
 1. прилагательные
 2. причастие
 3. глагол
 4. существительное
 5. наречие
 6. числительное
 7. союз
 8. предлог
*/

 $groups = array(
 1 => array ('ее','ие','ые','ое','ими','ыми','ей','ий','ый','ой','ем','им','ым','ом',
'его','ого','ему','ому','их','ых','ую','юю','ая','яя','ою','ею'),
 2 => array ('ивш','ывш','ующ','ем','нн','вш','ющ','ущи','ющи','ящий','щих','щие','ляя'),
 3 => array ('ила','ыла','ена','ейте','уйте','ите','или','ыли','ей','уй','ил','ыл','им','ым','ен',
'ило','ыло','ено','ят','ует','уют','ит','ыт','ены','ить','ыть','ишь','ую','ю','ла','на','ете','йте',
'ли','й','л','ем','н','ло','ет','ют','ны','ть','ешь','нно'),
 4 => array ('а','ев','ов','ье','иями','ями','ами','еи','ии','и','ией','ей','ой','ий','й','иям','ям','ием','ем',
'ам','ом','о','у','ах','иях','ях','ы','ь','ию','ью','ю','ия','ья','я','ок', 'мва', 'яна', 'ровать','ег','ги','га','сть','сти'),
 5 => array ('чно', 'еко', 'соко', 'боко', 'роко', 'имо', 'мно', 'жно', 'жко','ело','тно','льно','здо','зко','шо','хо','но'),
 6 => array ('чуть','много','мало','еро','вое','рое','еро','сти','одной','двух','рех','еми','яти','ьми','ати',
'дного','сто','ста','тысяча','тысячи','две','три','одна','умя','тью','мя','тью','мью','тью','одним'),
 7 => array ('более','менее','очень','крайне','скоре','некотор','кажд','други','котор','когд','однак',
'если','чтоб','хот','смотря','как','также','так','зато','что','или','потом','эт','тог','тоже','словно',
'ежели','кабы','коли','ничем','чем'),
 8 => array ('в','на','по','из')
);

$res=array();
$string=mb_strtolower($string);
$words=explode(' ',$string);
//print_r($words);
foreach ($words as $wk=>$w){
    $len_w=mb_strlen($w);
 foreach ($groups as $gk=>$g){
  foreach ($g as $part){
    $len_part=mb_strlen($part);
   if (
        mb_substr($w,-$len_part)==$part && $res[$wk][$gk]<$len_part //любая часть речи, окончания
        || mb_strpos($w,$part)>=(round(2*$len_w)/5) && $gk==2 //причастие, от 40% и правее от длины слова
        || mb_substr($w,0,$len_part)==$part && $res[$wk][$gk]<$len_part && $gk==7 //союз, сначала слОва
        || $w==$part //полное совпадение
      ) {
         //echo $w.':'.$part."(".$gk.")<br>";
         if ($w!=$part) $res[$wk][$gk]=mb_strlen($part); else $res[$wk][$gk]=99;
        }

  }
 }
if (!isset($res[$wk][$gk])) $res[$wk][$gk]=0;
//echo "<hr>";
}


$result=array();
foreach($res as $r) {
 arsort($r);
 array_push($result,key($r));
}
return $result;
}

UPDATED: 27.09.2012 — Обновлен код функции. Переход на мультибайтовые строки (mb_*). Добавлены новые части речи. Добавлена значительная часть слов в массив.

UPDATED: 29.09.2012 — Полезная информация по русскому языку для тех, кто сам пишет подобное: здесь

Пишите свои замечания — будем дорабатывать вместе.