Venyamean Aug 19 2008 at 11:38

Программное разбиение слова на слоги

5 min

7.8K

Lumber room

+19

Comments 38

malek Aug 19 2008 at 11:50

А толку, если это с правилами русского языка не согласуется?
Вот правила: gramota.ru/spravka/rules/? rub=perenos
Если написано нельзя — значит и не надо оправдывать неправильные переносы. Лучше вообще не переносить, чем переносить чёрт знает как.

Shedko Aug 19 2008 at 11:51

По моему увидев перенос «хоккей — 141143 — хо-ккей;» мало кто поверит, что надо «хо-ккей» а не привычное «хок-кей». И я побоюсь использовать такие переносы.

Venyamean Aug 19 2008 at 11:53

ну, привычнее, не привычнее, но это правильно. погуглите на тему «принцип восходящей звучности»

7vies Aug 19 2008 at 12:01

Так вон же выше ссылку привели на правила:

7. Нельзя оставлять в конце строки или переносить в начало следующей две одинаковые согласные, стоящие между гласными.

То есть «хок-кей» правильно, а «хо-ккей» — неправильно.

Venyamean Aug 19 2008 at 12:05

так в примере речь не про перенос а про слогораздел. наверное, я нелостаточно чётко выразился. слогораздел и перенос слов разные вещи. а что программа перенсёт слово не так, это да. но в коце сатьи я написал, что в принципе, эту бадягу можно обойти правилами на основе регулярных выражений. а реализацию оставил вам на сладкое. сам тоже над ней работаю =)

Venyamean Aug 19 2008 at 11:52

это с правилами русского языка согласовано: слогораздел именно так и происходит. А перенос слов по слогам вполне возмоден. Читайте: www.gramma.ru/RUS/? id=4.21

Venyamean Aug 19 2008 at 11:54

\\возможен

Shedko Aug 19 2008 at 12:11

>> Недавно я столкнулся с проблемой реализации переноса слов средствами PHP.
Вот это и наводит на мысль что не слогораздел а именно перенос по слогам =)

Venyamean Aug 19 2008 at 12:14

ну да, такой способ переноса слов в принципе возможен [ www.gramma.ru/RUS/? id=4.21 ]. и для него принципиален слогораздел))

UFO landed and left these words here

Venyamean Aug 19 2008 at 12:03

спасибо за линк. я просто пытался реализовать всё в максиамльном соответсвии с правилами слогораздела. мой первоначальный алгоритм работал более чётко, но он расставлял переносы после всех гласных а потом прогонял вывод по регулярным выражениям. получается, принёс удобство в жертву «научности» =(

Q2W Aug 19 2008 at 11:59

Вообще-то есть специализированный софт для этого дела.
И вот он как раз всё делает по правилам (ну или почти всё).

Venyamean Aug 19 2008 at 12:01

ну есть то-есть, а где его найти в паблике? я не нашёл, и озадачился. сейчас работаю над реализацией морфемного способа переноса. как сделаю словарь — выложу на хабре.

Q2W Aug 19 2008 at 12:12

Наш программист как-то нашёл этот софт.
Одной из его находок был т.н. «лемматизер» aot.ru.
Возможно там же он нашёл и работу со слогами.

Venyamean Aug 19 2008 at 12:15

спасибо, будем тестить и изучать)

khim Aug 19 2008 at 13:45

ну есть то-есть, а где его найти в паблике?

Ээээ… Прочитать на Википедии? Там есть и ссылки на статьи и на реализации. Правда для русского нет ничего — это правда.

Venyamean Aug 19 2008 at 12:07

кстати, скорее всего такой софт работает на основе морфем…

Venyamean Aug 19 2008 at 11:59

если есть сомения на счёт слогораздела, почитайте forum.gramota.ru/forum/read.php? f=15&i=5072&t=5072, все мои примеры оттуда родом.

kr1z Aug 19 2008 at 12:09

Очень не плохо!
Для лучшего восприятия кода, советую воспользоваться source.virtser.net/

Venyamean Aug 19 2008 at 12:11

он вроде как php не подсвечивает(

kr1z Aug 19 2008 at 12:15

ну можно выбрать C#
php как известно, является не далеким родственником по структуре…

Все равно приятней будет читать код.

Venyamean Aug 19 2008 at 12:23

сделано

malek Aug 19 2008 at 12:53

Подсветка — это, конечно, здорово, но сейчас код нельзя скопипастить и запустить.
Например, из-за кавычек.

sylvio Aug 19 2008 at 12:27

Ну про сам алгоритм написали выше.
Напишу про код — он очень, очень странный.

Зачем переводить строку из cp1251 в юникод и потом жутко извращенным способом отщипывать символы из старой кодировки и переводить в новую, может стоит сразу использовать mb_string?
function win2uni($s) — это вообще очень странная функция, этакий аналог iconv('windows-1251', 'utf-8', $s).

У вас чуть менее чем полностью код состоит из copy-paste. Так писать не следует.
$group_[1-4] сгруппируйте в один массив, если вы все еще так настойчиво сам код сохраняете в кодировке cp1251, а потом переводите символы своим велосипедом в utf8, то либо сохраните наконец-то его в utf8, либо используйте array_map.

Вместо этого ужаса if… elseif… elseif и тд по одной строчке в каждом переделайте код на switch case.

Venyamean Aug 19 2008 at 12:29

согласен, код не красивый. но вылизывать его не хватило терпения, хотелось побыстрее написать на хабр, как тока он заработал…

sylvio Aug 19 2008 at 13:11

Поспешишь — людей насмешишь :-)
Привести код в порядок занимает не так уж и много времени.

sylvio Aug 19 2008 at 13:19

И да, сравните количество кода. Чувствуете разницу?
А если уж очень хочется true-utf-compliance, то одноименные функции для работы со строками взять из библиотеки mb_string, кода больше не станет.

Tails Aug 19 2008 at 12:43

Вы «ландскнехт» неправильно написали :)

Venyamean Aug 19 2008 at 12:46

упс, опечатка, щас исправлю…

khim Aug 19 2008 at 13:07

Да что там скрипт, даже с поиском алгоритма возникли трудности

Аааа… Держите меня семеро. Ну сколько нужно времени чтобы найти суперсекретную статью в ультранедоступном источнике с названием Wikipedia? Версии для PHP там нет, правда (есть где руки кодеру размять, да), но есть для Perl и Ruby. Таблицы для русского языка берутся из естественного места.

Оставьте студентов-филологов в покое: всё уже украдено до вас!

kurokikaze Aug 19 2008 at 13:18

Не знаю можно так переносить или нельзя, но выглядит как то неорганично. Особенно «я-стреб». «Яст-реб» как то привычнее (Викисловарь тоже так считает).

khim Aug 19 2008 at 13:43

Нельзя оставлять одну букву на строке. Алгоритм Кнута это учитывает отдельно. \lefthyphenmin=2 \righthyphenmin=2 для русского, \lefthyphenmin=2 \righthyphenmin=3 для английского…

kurokikaze Aug 19 2008 at 13:45

Вы не путайте орфографию и типографику пожалуйста.

khim Aug 19 2008 at 13:49

Oops. Я и не заметил что там вообще слово было неправильно разбито на слоги. Посыпаю голову пеплом. Кстати правила для русского языка из babel'я работают хуже, чем для английского — что можно заметить и по количеству исключений (184 для русского и 14 для английского). Но по сравнению с тем, что эти эвристики творят это всё мелочи, конечно…

kurokikaze Aug 19 2008 at 13:56

Ну, в русском таких слов достаточно. «Изображение» или «идиот» например. Насколько я знаю, оставлять одну букву на строке можно, но не принято.

khim Aug 19 2008 at 14:06

Нельзя. Уже же ссылку давали. Но в случае с яст-ре-бом до этого правила там дело не должно доходить даже. Такой перенос должен отсекаться на уровне разбиения на слоги. У Кнута не доходят.

kurokikaze Aug 19 2008 at 14:11

Да уж, правил у нас немало.

kurokikaze Aug 19 2008 at 14:13

В общем, при разбиении на слоги одна буква оставаться может, при переносе — нет. А то тут немного свалили в кучу одно и другое.