MainEditor0 May 19 at 13:35

Гибридная латиница для русского языка

Easy

6 min

11K

Learning languagesLogic gamesTypography *

Analytics

-3

Comments 40

Esh65 May 19 at 16:22

Вы решили повторить то, что в своё время делали большевики, они русский алфавит, а также татарский и башкирский, может быть ещё какой-то, начинали переводить на латиницу. Для татар и башкир создавать заново, эти два народа писали на арабском.

MainEditor0 May 19 at 16:49

Да, были такие проекты, причем самые разнообразные. И как в сторону латиницы, так и в сторону кириллицы

tyomitch May 24 at 19:15

может быть ещё какой-то, начинали переводить на латиницу

70 языков перевели на латиницу, и ещё 4 задумывали перевести, но не успели: https://en.wikipedia.org/wiki/Latinisation_in_the_Soviet_Union#List_of_languages

old_gamer May 19 at 16:28

надо ё (йо) надо транслитирировать не в ë, а в ö, тогда я и ю будут ä и ü

MainEditor0 May 19 at 16:44

Ну, это в целом очень логично и последовательно по части диакритики. Концепт хороший, но это всё довольно чувствительно к нагромождению диакритических знаков в текстах и дело привычки, поэтому мне показалось, что лучше оставить как можно меньше диакритических знаков, чтобы оно казалось более кириллическим и естественным. В итоге их осталось всего два, - и они расположены ровно на тех же самых местах, где они уже и так были в кириллице, и сами значки тоже те же самые - кратка (бревис) и умлаут. Но ничто не мешает сделать по-вашему

MainEditor0 May 20 at 07:54

Хотя, возможно, лучше вместо точек взять кратку (бревис) под вашу задумку, чтобы был всего один тип диакритики

novice2001 May 19 at 17:27

У меня только 2 вопроса - зачем и на..я?

Кириллица прекрасно приспособлена к фонетике русского языка. Да, она странно выглядит для тех, чьи родные языки пишутся латиницей. Да, она заставляет переключать раскладку клавиатуры. Но это не те причины, ради которых стоит ломать действительно подходящую письменность. Как и экономия байт в раскладке utf-8 или страниц в книгах.

У нас перед глазами есть примеры славянских языков с латинской письменностью, в которых черт ногу сломит. Например, польского с д графами и диакритикой.

Так зачем?

MainEditor0 May 19 at 18:03

У нас перед глазами есть примеры славянских языков с латинской письменностью, в которых черт ногу сломит. Например, польского с д графами и диакритикой.

Ну, в статье я вообще-то это затрагивал в критериях

Минимум диакритических знаков
Минимум диграфов и триграфов или ещё чего похуже

novice2001 May 19 at 18:27

Минимум диграфов - это как минимум сломанных пальцев. Нормальное состояние - когда их нет, поскольку это костыли для приспособления чуждой письменности к языку.

MainEditor0 May 19 at 18:48

В целом я с вами согласен. Но тем не менее есть, например, сочетание СЧ, которое на Щ не торопятся заменять.

Это я не упоминал явно, но соответствие один к одному мне выжать удалось. То есть диграфов и тем более триграфов нет вообще.

Но проблемы скорее типографические и с привыканием. А так в целом люди влспринимают письмо практически по памяти, но отказываться от звукового соответствия было бы слишком большой потерей целой связи, облегчающей восприятие

novice2001 May 19 at 21:06

СЧ - это не диграф для звука Щ. Это сильная тенденция в беглой устной речи объединять два разных звука в один. Причем не только внутри слова, а и на границе "из чего" - "ищево". БОльшую часть слов с сочетанием СЧ мы можем произносить двумя способами: "расческа" и "ращеска".

ТС в данном отношении ещё слабее.

MainEditor0 May 22 at 12:24

Тем не менее нам никак не мешает расхождение фактического произошения и написания слова.

У меня только 2 вопроса - зачем и на..я?

Ну, лично мне хотелось просто посмотреть, как это будет выглядеть, а все существующие варианты, которые мне всплывали в интернете и в том числе на Хабре, мне показались довольно уродливыми как раз по причинам, которые вы назвали - диграфы/триграфы, диакритика и несовместимость с текущей кириллицей...

А так вообще не за чем

MainEditor0 May 19 at 19:41

Или еще ТС=Ц

aamonster May 19 at 19:50

Я не понимаю. Ресурс населён в основном программистами, причём не программистами на APL. Казалось бы, можно ожидать, напротив, подхода "всё должно записываться символами ASCII".

novice2001 May 19 at 21:08

Да и вообще пора уже отказаться от архаичных естественных языков и перейти в общении на C или Python

KonstantinTokar May 26 at 11:56

С ЛЛМ неожиданно удобно общаться на perl. Может и с людьми, только не на питоне - а то вдруг захочется всех построить.

tyomitch May 24 at 19:32

В русской кириллице как минимум три диграфа (Щ, Ы, Ю), которые за века употребления стали писаться безотрывно, а потом и печататься одной литерой. В юникоде предостаточно латинских диграфов единым code point: https://en.wikipedia.org/wiki/List_of_precomposed_Latin_characters_in_Unicode#Digraphs_and_ligatures -- любой из них можно считать полноценной отдельной буквой.

Так что разница между диграфами, лигатурами (вроде сербских Љ и Њ) и монографами субъективна: границы между ними можно провести где угодно, по вкусу проводящего.

novice2001 May 24 at 20:27

Неважно, как там писалось раньше. Раньше и язык в целом тоже был сильно другой, и подавляющее большинство из нас его просто не смогло бы понимать. Мы рассматриваем современный русский язык и современную же кириллицу. И прямо сейчас никаких диграфов в русской кириллице нет. Один звук - одна буква.
Количество кодовых точек - это вообще дело десятое.
А границы вполне объективны. Диграф по определению делим, поскольку состоит из двух отдельных частей, каждая из которых имеет самостоятельное значение.
И при чтении мозгу необходимо выполнять дополнительную работу, чтобы понять, является ли этот конкретный символ частью диграфа или же нет. Даже если человек хорошо и быстро читает, это не значит, что мозг эту работу не выполняет. Зачем нагружать мозг бессмысленной работой, приделывая к языку чужой алфавит? Чтобы что?

tyomitch May 24 at 20:50

Кроме одного лишь корейского, все алфавиты в мире -- чужие, и создавались для нужд одних языков, а потом приделывались к другим. И русский алфавит -- не исключение.

novice2001 May 24 at 21:22

Хорошо приспособленный алфавит - это уже свой алфавит. Латиница даже близко не приспособлена к русской фонетике.
На главный вопрос (зачем?) ответа так и нет.

Arhammon May 20 at 04:35

Кириллица прекрасно приспособлена к фонетике русского языка.

Это почему болгарско-греческий к чему-то там приспособлен, а латинская адаптация нет?

У нас перед глазами есть примеры славянских языков с латинской письменностью, в которых черт ногу сломит. Например, польского

А может поляков спросим что они думают про то как греческо-болгарский алфавит подходит славянским языкам? Крайне подозреваю что на сохранившиеся одинаковые слова написанные на кириллице поляк так же будет смотреть и говорить что это какие-то непонятные кракозябры, как я смотрю на szczęście.

Так зачем?

Не зачем, точнее цена слишком велика - пару десятилетий назад еще, когда технологии были нерусифицированные, еще можно было поднять вопрос о латинице. Более того транслит использовался добровольно и с песней. То сейчас нет, никто не поймет зачем.

novice2001 May 24 at 20:59

Во-первых, речь идет о современной кириллице, а не о непонятном "болгарско-греческом". И приспособлена она как ни странно именно потому что приспособлена: на каждый звук в языке есть своя отдельная буква. В отличие от латиницы.
Во-вторых, привыкнуть можно ко всему, даже к корявой записи латиницей звуков, для записи которых латиница не создавалась. И привычное, естественно, будет казаться проще и понятнее. Но очевидно, что система записи "один звук - одна буква" гораздо удобнее. Польская латиница кроме кучи диграфов для согласных имеет и чудесные носовые гласные, которые мало того, что не имеют ничего общего с очень похожими обычными гласными, так ещё и по-разному читаются в зависимости от окружения.
Ząb - почти заб, но хрен там - зОМб. Sprzątać - почти спшатач, но опять же хрен там - спшОНтач. Почему так? Где хоть какая-то логика?
Транслит использовался добровольно и с песней именно в силу отсутствия нормальной русификации, а более широко интернационализации. Когда нет возможности ходить на своих ногах, костыли - это намного лучше, чем ничего. Но это все равно костыли.
Итого. Никаких преимуществ латинизация не дает. Особенно сейчас, при наличии unicode.

tyomitch May 25 at 18:02

И приспособлена она как ни странно именно потому что приспособлена: на каждый звук в языке есть своя отдельная буква.

Ага, легко разгибать его загадки (все пять букв Г произносятся по-разному). Домашнее задание: найдите примеры с шестым произношением этой же буквы.

Кроме массы уже приведённых примеров -- например, что для большинства мягких согласных в русском алфавите нет своих отдельных букв -- попытайтесь объяснить, почему одно и то же "в тесте" произносится с твёрдым Т, когда это ошибка в тесте, и с мягким Т, когда это сосиска в тесте. Почему так? Где хоть какая-то логика?

мало того, что не имеют ничего общего с очень похожими обычными гласными, так ещё и по-разному читаются в зависимости от окружения. Ząb - почти заб, но хрен там - зОМб. Sprzątać - почти спшатач, но опять же хрен там - спшОНтач. Почему так? Где хоть какая-то логика?

Вы всерьёз спрашиваете, почему визуально похожие буквы обозначают совсем разные звуки? Это так же несерьёзно, как "enjoy -- почти эниой, но какого хрена хвостик под i так резко меняет произношение? Где хоть какая-то логика?"

Или вопрос про ассимиляцию при произношении? Русские правила ассимиляции намного сложнее, я их выше перечислял (одна и та же приставка с- шестью разными способами произносится в словах спал, стёк, сдал, сделал, сжёг, сшил) -- но вы ведь о них даже не задумываетесь.

Но очевидно, что система записи "один звук - одна буква" гораздо удобнее. Польская латиница кроме кучи диграфов для согласных

При вашей-то неприязни к диграфам -- вам нисколько не претит, что русские пары букв БЬ, ВЬ, ДЬ и т.д по алфавиту -- обозначают по одному согласному звуку каждый? Чем отвергаемые вами сербские диграфы Ǉ и Ǌ хуже равнозначных русских ЛЬ и НЬ?

tyomitch May 24 at 20:41

Кириллица прекрасно приспособлена к фонетике русского языка.

Русская кириллица была приспособлена к той фонетике, которая была тысячу лет назад; а к нынешней не приспособлена вообще -- но вы настолько привыкли к расхождениям между написанием и произношением, что не замечаете их в упор. Так же и англичанам их орфография кажется понятной и естественной, хотя изучающим английский как иностранный выносит мозг по полной программе.

буква Ъ обозначает [j], ровно как и Й;
буквы Е, Ё, Ю, Я в зависимости от положения обозначают либо [e, o, u, a] либо [je, jo, ju, ja]; в первом случае те же звуки обозначаются ещё и буквами Э, О, У, А;
буквы И, Е, Ё, Ь, Ю, Я после некоторых согласных меняют его произношение, после других (Ж, Й, Ц, Ч, Ш, Щ) -- не меняют произношение, а пишутся вместо Ы, Э, О, ∅, У, А по изощрённым правилам, которыми школьниками дрючат несколько лет;
как выше упомянул @MainEditor0, сочетания ЖЧ, ЗЧ, СЧ все одинаково читаются как Щ; кроме того, ЗШ, СШ одинаково читаются как ШШ, а ЗЖ, СЖ -- как ЖЖ;
кроме этой ассимиляции свистящих, на письме также не отражаются ассимиляция по мягкости и по звонкости (сделай [z'd'elaj), конечное оглушение (съезд [sjest]), выпадение согласных во стечениях и редукция безударных гласных (поздно [pozna]);
ну и наконец, есть "исторически сложившиеся написания" -его, -ого для [-iva, -ivo, -ava, -avo, -ova] и -тся, -ться для [-tsa], которые не следуют никаким более общим правилам.

У нас перед глазами есть примеры славянских языков с латинской письменностью, в которых черт ногу сломит. Например, польского с д графами и диакритикой.

Потому что польская орфография почти такая же древняя и консервативная, как и русская. Комментаторы ниже справедливо предложили вместо поляков смотреть на сербов: их орфографии меньше двух веков, и она идеально соответствует фонетике -- всё как слышится, так и пишется.

novice2001 May 24 at 22:47

У фонетики, которая была тысячу лет назад, и алфавит был другой.
Согласен с тем, что письменный русский язык не является абсолютно фонетическим.
Хотя не согласен с тем, что правила орфографии изощренные, и их нужно изучать несколько лет. При этом их вполне можно сформулировать, зная только устный язык и алфавит. Они есть в конце концов.
Английский же с точки зрения алфавита и орфографии - это полная каша и отсутствие всякой логики. Почему буква E называется "и", но в одиночку звук "и" не обозначает, а только когда их 2 подряд? Почему буква O "оу" обозначает кроме звуков "о", "оу" и "у" (tool) (в этих случаях хотя бы есть правила) ещё и "а" (blood)?
Одни и те же сочетания букв могут означать разные звуки. "Th" может быть звонким или глухим. А "ough" вообще читается как минимум 4 разными способами. "So" и "though" по произношению отличаются только первым согласным звуком. Но во втором случае букв втрое больше! И наоборот, с одинаковыми звуками [бай] есть 3 разных слова - by, bye и buy. Можно сконструировать как минимум ещё 2, которые должны звучать так же: bie (по аналогии с lie) и bigh (по аналогии с sigh). Итого 5(!) способов записать сочетание звуков [ай]. Примеры можно приводить практически бесконечно. И нет никаких правил как и почему происходит именно так. Исторически сложилось. Патамушта. Поэтому вряд ли даже англичанам их орфография кажется такой уж простой и естественной. Про логику я вообще молчу.

tyomitch May 25 at 05:50

Уверяю, что англичанин будет точно так же, как и вы про русскую кириллицу, рассказывать, что всё подчинено простым и понятным правилам, которые он, правда, сформулировать не сможет - как и вы вряд ли сможете сформулировать русские. Толщину розенталевского свода правил русской орфографии видели?

Но я ведь предлагаю в качестве примера, к которому стоит стремиться, вовсе не английскую латиницу, а сербскую.

novice2001 May 25 at 08:41

Мы говорим о разных вещах. Вы перешли от фонетики (2 варианта озвучки йотированных согласных, смягчение предыдущих согласных следующими гласными и т.п.), чьи правила существуют и элементарно формулируются, к орфографии в общем. В английском же правил фонетики нет. Одни и те же последовательности букв могут давать разные звуки, а одни и те же звуки могут записываться разными последовательностями букв. И почему так - никакой англичанин не скажет. Нет объяснения кроме патамушта.
В этом смысле английский близок к китайскому. Нельзя по начертанию узнать ни значение ни звучание нового иероглифа, увидев его впервые. В английском это конечно не настолько выражено, какие-то правила чтения есть. Но с русским даже сравнивать смешно.
И да, сербская латиница - это и диграфы и диакритика.
В который раз задаю вопрос - зачем? Чтобы что?

MainEditor0 May 25 at 11:44

Нельзя по начертанию узнать ни значение ни звучание нового иероглифа, увидев его впервые. В английском это конечно не настолько выражено, какие-то правила чтения есть. Но с русским даже сравнивать смешно.

Ну тут смотря как сравнивать. Если корень неизвестен, то будет точно так же, разве что шанс на проблему с произношением ниже. В английском тоже есть некоторая синтетичность в некоторых аспектах, но если костяк слова неизвестен, то и общий смысл будет так же загадкой

сербская латиница - это и диграфы и диакритика

Поэтому мне она тоже не нравится, поэтому диграфы я исключил, а диакритику оставил на тех же местах

В который раз задаю вопрос - зачем? Чтобы что?

Зеркально это как, допустим, попробовать измерить что-то не в дюймах, а в сантиметрах, попробовав международный стандарт в обычной жизни, а практического смысла в этом мало

tyomitch May 25 at 17:08

Мы говорим о разных вещах. Вы перешли от фонетики (2 варианта озвучки йотированных согласных, смягчение предыдущих согласных следующими гласными и т.п.), чьи правила существуют и элементарно формулируются, к орфографии в общем.

Вам мерещится, что "смягчение предыдущих согласных следующими гласными" -- это правило фонетики, а не орфографии, именно потому, что русская орфография это смягчение обозначает выбором гласных букв, а не согласных. (Противоположный подход принят, например, в сербской кириллице, где смягчение обозначается выбором согласной буквы, а гласная остаётся неизменной: угла, углу vs. угља, угљу "угля, углю").

В английском же правил фонетики нет. Одни и те же последовательности букв могут давать разные звуки, а одни и те же звуки могут записываться разными последовательностями букв.

Так и есть -- в точности как и в русском. И в точности так же, как вы в упор не видите такие места в русской орфографии, но отлично видите в английской -- так и англичанину кажется, что разные произношения одинаковых последовательностей английских букв -- это "правила фонетики, которые существуют и элементарно формулируются" (притом что сформулировать их он, конечно, не сможет), зато он отлично видит такое в русской орфографии.

И почему так - никакой англичанин не скажет. Нет объяснения кроме патамушта.

Можно подумать, у вас есть лучшее объяснение "особенностям" русской орфографии, чем "правила вполне можно сформулировать, но делать этого я не буду".

И да, сербская латиница - это и диграфы и диакритика.

К диакритике-то у вас какие претензии? И распространяются ли они на русские Ё и Й, или только на латиницу?

MainEditor0 May 30 at 06:10

что всё подчинено простым и понятным правилам, которые он, правда, сформулировать не сможет

Знаете, я сам с английским знаком скорее логографически - запоминая произношения и написания, но хотя написания и чуть-чуть да помогают, но вот нашёл правило для одного из случаев:

Over time, that turned into a pattern:
c + a/o/u --> hard sound (cat, corn, cut)
c + e/i/y --> soft sound (cent, city, cycle)
So while it feels redundant, it actually signals pronunciation patterns and helps preserve word relationships. For example:
electric
electricity (Scranton, what?!)
If we respelled everything phonetically, those connections would get messier.

tyomitch Jun 6 at 20:49

Over time, that turned into a pattern:
c + a/o/u --> hard sound (cat, corn, cut)
c + e/i/y --> soft sound (cent, city, cycle)

Кроме случаев, когда они читаются наоборот (facade и Caesar c [s], soccer и Celtic с [k]), или когда C обозначает не [k] и не [s], а например [ʃ] (ancient, social, vicious) или [tʃ] (cello, cappuccino, ciabatta).

Ну и хотя это "частичное правило" помогает читать написанное -- писать на слух оно не помогает, потому что [k] может обозначаться как C, K, CC, CK, CH, QU и т.д; например, [tʃek] может писаться хоть check, хоть cheque, хоть Czech.

So while it feels redundant, it actually signals pronunciation patterns and helps preserve word relationships. <...> If we respelled everything phonetically, those connections would get messier.

И что полезного в том, что в читающихся по-разному родственных словах (как electric и electricity) пишется одна и та же буква, зато в одинаково читающихся родственных словах (как revoke и revocation или traffic и trafficking) приходится писать разные буквы из-за меняющегося окружения?

MainEditor0 Jun 7 at 19:38

И что полезного в том, что в читающихся по-разному родственных словах (как electric и electricity) пишется одна и та же буква

Вот это хороший вопрос, но это в целом добавляет некоторую логичность и как бы связывает слова на письме. В русской орфографии тоже есть что-то подобное, что порой ломает фонетичность

tyomitch Jun 14 at 19:06

в целом добавляет некоторую логичность и как бы связывает слова на письме

Что в русской, что в английской орфографии есть уйма исключений из этого принципа (английские примеры см. выше, русские -- например https://gramota.ru/uchebnik/pravila/korni-s-cheredovaniem-glasnykh-vybor-kotorykh-zavisit-ot-sleduyushchikh-za-nimi-soglasnykh). Исключений что там что там -- в сумме достаточно, чтобы полагаться на этот принцип не было возможным.

При этом срби пишу на српском језику, и чередование подчёркнутых согласных (соответствующее фонетике!) их напрягает гораздо меньше, чем русских младшеклассников -- мудрёные правила написания русских корней с чередованиями.

Mizantrop777 May 19 at 18:59

A 3a4eM Bce 3To Hy3lEHo, Korga Mo3IEHo I7ucaTb TaK?

OJI6aHcKuu He 3Haewb, 4To Jlu?

zlorange May 19 at 23:07

Слишком молодой.

Вот и выросло поколение, которое...

Haligali99 May 20 at 04:24

Очередной Франкенштейн на алфавитном поле

Tonisamviseja May 21 at 10:32

Možna vzjatj gatovuju sistjemu Vuka Karadjića i sljehka jijo adaptjiravatj pad ruskuju fanetiku, naprimjer ispoljzavatj j meždu saglasnimji dlja šva: mjlako.

Gradotechnic May 21 at 11:54

Велосипед. Гораздо эффективнее взять алфавит любой славянской страны (например сербский, потому что у них натурально в ходу и кириллица и латиница) и доработать.

Armastus4237 May 26 at 05:28

Postav'te sebe karel'skuü raskladku v Google klaviature i ne nado šamanit' polukirillicu polulatinicu.

MainEditor0 May 26 at 06:42

Многовато диакритики, также апостроф довольно маленький, а мягкость звука имеет большое значение, мягкий знак достаточно крупный и выразительный, отображение не один к одному