Vladimir_Zaitsev Aug 26 2015 at 08:50

Обратимая транслитерация кириллицы

14 min

64K

Programming *

From sandbox

+23

Comments 91

silencer Aug 26 2015 at 09:08

Krypt Aug 26 2015 at 09:30

Не согласен. Транслитеризации пишут все, кому не лень, но это первая обратимая среди мной встреченных. Даже используемая для пластиковых карт не однозначна при обратном преобразовании.

silencer Aug 26 2015 at 09:37

За обратимость автору спасибо. Но все-таки еще один стандарт — это не очень хорошо.

Может просто это только меня задолбало, но… Во всех трех загранпаспортах, которые у меня были, три разных варианта транслитерации имени. На банковских картах — вариантов 5 видел (когда-то в анкете на выпуск карты не спрашивали как правильно транслитерировать). И это при не самом сложном имени и фамилии. Хорошо еще, что в паспорте в фамилии вместо «ё» написано «е» — иначе боюсь представить сколько разных вариантов было бы.

nickolaym Aug 26 2015 at 09:41

Ха, пять вариантов на банковских картах. Мне в одном банке в один день выпустили две карты (дебетовую и кредитную) с разной транслитерацией. Алгоритм-шмалгоритм. Кривые руки любой алгоритм уделают.

ploop Aug 26 2015 at 18:46

Даже используемая для пластиковых карт не однозначна при обратном преобразовании.

У меня 3 карты, и на всех трёх имя (Юрий) написано по разному :)

Firsto Aug 27 2015 at 06:54

У меня тоже "-ий" в фамилии по-разному на трёх разных картах.

tendium Aug 27 2015 at 08:24

Достаточно показать загран и попросить написании в соответствии с ним. В свою очередь в загране можно сохранять старое написание даже при смене стандарта (сейчас стандарт новый, но написание у меня сохранили старого).

Mrrl Aug 27 2015 at 08:48

Чтобы сохранить старое написание, нужна уважительная причина. Желательно, такая, за которую не расстреляют на месте.

silencer Aug 27 2015 at 08:52

Достаточно того, что есть другие документы имя в которых записано в соответствии со старым загранпаспортом.

Mrrl Aug 27 2015 at 09:01

Например? Кредитную карточку заграничного банка не предлагать (если нет разрешения ЦБ).

silencer Aug 27 2015 at 09:04

Водительские права, любая кредитка.
Возможно потребуется написать заявление на имя начальника отделения, но это уже зависит от того, насколько сильно развит «синдром вахтера» у работников этого отделения.

Mrrl Aug 27 2015 at 09:09

Водительские права? В смысле, международные? Представляется более вероятным, что их предложат поменять — в конце концов, это всего лишь перевод российских прав.
У меня в своё время сработало «наличие действующей визы». Заявление, конечно, писать пришлось.

tendium Aug 27 2015 at 09:44

Смотрим:

17.10. Письменное заявление об изменении написания в паспорте фамилии и/или имени гражданина, которому оформляется паспорт, буквами латинского алфавита, составленное в произвольной форме, в котором указана причина, являющаяся основанием для изменения написания фамилии и/или имени, с приложением одного из следующих подтверждающих документов и его копии: ранее выданного паспорта, свидетельства о рождении, свидетельства о заключении (расторжении) брака, свидетельства о перемене имени, вида на жительство — в случае, если заявитель желает изменить порядок упомянутого написания, предусмотренный абзацами 2 и 4 подпункта 43.4 пункта 43 настоящего Регламента.

Обратите внимание на пункт ранее выданного паспорта.

P.S. В моем случае было еще проще: у меня в момент обмена паспорта был действующий ВНЖ другого государства, где фамилия была указана в соответствии с написанием в старом паспорте.

Mrrl Aug 27 2015 at 09:52

Обратите внимание на пункт ранее выданного паспорта

Копия паспорта — это хорошо. Но причину-то какую писать?

tendium Aug 27 2015 at 11:28

Причина, например, зарегистрированное доменное имя на старое написание и использование его для общения с зарубежными коллегами. Использование на визитках старого написания, и известность вас лично людям именно по старой транскрипции. Регистрация программных продуктов, купленных за рубежом на ваше имя в старой транскрипции, и невозможность поменять имя в лицензии без повторной покупки. Еще вы, например, можете сказать, что подали заявление на долгосрочную визу в другое государство (паспорт в таком случае не забирают), и смена написания создаст вам проблемы с вклейкой этой самой визы. Еще это могут быть разные варианты написания фамилии у детей (если есть) и вас — может оказаться существенным аргументом. Это то, что мне навскидку пришло в голову. Я уверен, что вы можете придумать и другие не менее уважительные причины.

ComodoHacker Aug 26 2015 at 19:57

Первая обратимая? Вы с ISO 9/ГОСТ 7.79 не знакомы?

bolk Aug 27 2015 at 17:18

Обратимый транслит используется в WackoWiki, например.

Vladimir_Zaitsev Aug 27 2015 at 18:21

Про WackoWiki уже писали. Я нашел исходник, это оно?

Vladimir_Zaitsev Aug 26 2015 at 11:17

С удовольствием использовал бы стандарт, а еще лучше — готовое решение. Но обратимых не нашел, пришлось городить огород.

Vapaamies Aug 26 2015 at 11:54

Обратимый транслит разрабатывался в WackoWiki, там же была реализация.

Vladimir_Zaitsev Aug 26 2015 at 12:47

Вы это имеете в виду?
Там вроде и «ь» и «ъ» заменяются на "_", так что с обратимостью будут проблемы.

silencer Aug 26 2015 at 12:20

А так ли нужна обратимость в вашем конкретном случае? Как я понимаю, в клинике должна быть БД пациентов с именами/фамилиями — почему бы не использовать ее для обратной транслитерации? В смысле перебрать все возможные варианты обратной транслитерации и проверить не встречается ли такое имя/фамилия в БД.

Кстати, а не может ли быть такой ситуации, что результат/распечатка томограммы может потребоваться пациенту для передачи его (этого ответа) в зарубежную клинику? В этом случае, опять же, лучше использовать стандарт транслитерации для загранпаспортов.

Vladimir_Zaitsev Aug 26 2015 at 12:57

Согласен, как-то можно было выкрутится.
Но с обратимой транслитерацией все намного проще:
— можно заполнить документы по-русски вручную, если нет доступа к системе (бывает такое);
— можно сделать автономную утилиту по генерации документов из данных исследования без связи с базой;
— можно искать в базе ФИО не боясь, что найдутся разные варианты.
С зарубежной клиникой да, поэтому и старались сделать по-возможности читаемый вариант. Но точное совпадение с загранпаспортом никому не нужно. Тем более что в загранпаспортах используют разные схемы транслитерации, они сами с собой не совпадают.

ComodoHacker Aug 26 2015 at 19:57

Как насчет ISO 9/ГОСТ 7.79?

encyclopedist Aug 26 2015 at 20:22

Использует апострофы (в варианте Б). Автору, как я понял, это не подходило.

zapishiscom Nov 21 2025 at 16:48

А мне в 2025м понадобилась обратимость и вот незадача - слово йод по госту мы транслитим в yod а потом обратно в ..ёд . Спасибо автору сего труда. Прикладываю свою реализацию на PHP для проекта игры в слова эрудит https://t.me/erudit_club_bot - здесь каждое слово при подборе нужно превратить в /slovo, чтобы по клике на него выводилось описание из словаря.

const TRANSLIT = [ 'А' => 'A', 'Б' => 'B', 'В' => 'V', 'Г' => 'G', 'Д' => 'D', 'Е' => 'E', 'Ё' => 'JE', 'Ж' => 'ZH', 'З' => 'Z', 'И' => 'I', 'Й' => 'Y', 'К' => 'K', 'Л' => 'L', 'М' => 'M', 'Н' => 'N', 'О' => 'O', 'П' => 'P', 'Р' => 'R', 'С' => 'S', 'Т' => 'T', 'У' => 'U', 'Ф' => 'F', 'Х' => 'KH', 'Ц' => 'C', 'Ч' => 'CH', 'Ш' => 'SH', 'Щ' => 'JSH', 'Ъ' => 'HH', 'Ы' => 'IH', 'Ь' => 'JH', 'Э' => 'EH', 'Ю' => 'JU', 'Я' => 'JA',];

public static function ruToEn(string $word): string { return strtr(mb_strtoupper($word, 'utf-8'), self::TRANSLIT); }

public static function enToRu(string $word): string { return mb_strtolower(strtr(mb_strtoupper($word, 'utf-8'), array_flip(self::TRANSLIT)), 'utf-8'); }

Krypt Aug 26 2015 at 09:36

> Shheshjh
«Шшешйх… Шхешйх… А, съешйх!»

Очень неудачное сочетание символов.

Krypt Aug 26 2015 at 09:41

Я бы на вашем месте всё таки отказался от сочетаний hh и jh. Возможно всё таки в пользу применения апострофа.
hh и jh выглядят слишком синтетическими, а учитывая, что «h» — это суффикс — распознавание сочетания человеком сильно усложняется.

Как вариант:
Ъ — '
Ь — j'

Goodkat Aug 26 2015 at 09:57

Тогда уж:
ь — '
ъ — "

Правда, не сработает, если в имени будет апостроф.
У нас работает человек с апострофом в фамилии — до этого я и не знал, что такое бывает. Фамилия иностранная, правда.

JIghtuse Aug 26 2015 at 10:01

habrahabr.ru/post/146901

tendium Aug 26 2015 at 10:07

В чешском языке, например, апостроф может быть частью буквы: ť, ď (может в зависимости от шрифта отображаться как апостроф, или реже как «галочка» типа как в буквах ě или ň). Так что не такая уж большая проблема.

Krypt Aug 26 2015 at 10:08

Кавычки — нельзя, потому как они могут присутствовать в оригинальной строке. Собственно, как и апостроф, но в русском языке он крайне редкий гость.

Впрочем, для апострофа можно так же символ ввести… 'h Или 'h использовать для твёрдого знака

Vladimir_Zaitsev Aug 26 2015 at 11:21

Хорошо бы, но использовать знаки препинания нельзя было по требованию — унаследованная система их не принимает. Использование в результате только букв латиницы — один из основных плюсов этого решения.

Vladimir_Zaitsev Aug 26 2015 at 11:19

Да, в основном из-за «HH».

nickolaym Aug 26 2015 at 09:40

Самый тяжёлый случай — это слова «зъъъъъъ» и «жъъъъъъ» :)) — «zhhhhhhhhhhhh» и «zhhhhhhhhhhhhh» соответственно.
То есть, смотреть вперёд надо не на 3 буквы, а на чётность-нечётность.
И мы внезапно из регулярной грамматики попадаем в контекстно-свободную.
Пусть и очень простенькую, на одном изолированном случае (ъъ не встречается в обычной русской орфографии), и легко разбираемую даже перл-совместимыми регекспами (которые вообще являются подклассом контекстно-зависимых).

Zibx Aug 26 2015 at 09:48

Скрытый текст

Vladimir_Zaitsev Aug 26 2015 at 11:27

Спасибо за наглядный пример.
Понятно, «HH» — решение не удачное.
На будущее можно подумать, как это лучше сделать.
Пока только «JHH» в голову приходит. Это сделает грамматику регулярной, упростит считывание человеком, и, похоже, освободит «SHH» для «Щ».

nickolaym Aug 26 2015 at 11:53

Глядя на эти буквосочетания, постоянно вспоминаю древнее JHWH (без гласных можно, Б-г простит) и современное JWH (без цифр можно, ГНК простит).

Vladimir_Zaitsev Aug 26 2015 at 13:25

Меня в последнем регулярно коллеги подозревают, просят отсыпать. А у меня нет.

WeslomPo Aug 26 2015 at 09:55

Если я не ошибаюсь, у вас осталось еще два символа X, W которые можно было спокойной использовать, один для ШЩ другой ЬЪ например так W, JW, X, JX. Потому что «Shheshjh» — «Sjxeswx». «Сджиксесв» — вы даже не попытаетесь прочесть потому что бред, поэтому доходит быстрее чем «Сххешджх». Несмотря на фонетическую дикость.

Или хотя бы «Sxxeshx». А для Щ — JH.

Krypt Aug 26 2015 at 09:58

Зато как «Сжхесив» — пожалуйста. В определённый момент мозг бунтует и отказывается воспринимать символы.
Тут это даже сильнее выражено, чем в оригинале.

Killy Aug 26 2015 at 10:51

> Sxxeshx
Прикольно. Это легче всего читается. «x» легко пропускается при чтении как беззвучный символ, пауза.

Vladimir_Zaitsev Aug 26 2015 at 11:47

Да, не использованы символы «Q», «X», «W». Не использованы сознательно. Проблема с ними в том, что у них есть вполне определенное звучание в любом языке. Даже «J» для людей — проблема, с трудом привыкают не «озвучивать» букву при чтении.

OLS Aug 26 2015 at 10:05

С целью значительного облегчения алгоритма обращения я бы предложил

Щ — TH
Ъ — JH либо JJ
Ь — JY

Vladimir_Zaitsev Aug 26 2015 at 11:55

Предложение интересное. Было бы хорошо ограничится двух-буквенными кодами.
Про «TH» для «Щ» думал, но это сочетание всем известно, и читается совсем не как «Щ». Людям будет трудно «переключаться».
«JJ» — плохое сочетание, по тем же причинам, что и «HH» — приводит к нарушению однозначности. Выше есть комментарии с теорией.
«Ь» --> «JY» возможно, но противоречит принципу «для букв, которым не соответствуют звуки, нельзя использовать буквы, для которых звуки есть».

tyomitch Aug 28 2015 at 05:59

Про «TH» для «Щ» думал, но это сочетание всем известно, и читается совсем не как «Щ».

Интересно, что на эту тему скажет Мищгол?

OLS Aug 28 2015 at 09:36

«JJ» — плохое сочетание, по тем же причинам, что и «HH» — приводит к нарушению однозначности. Выше есть комментарии с теорией

Поясните, пожалуйста, в каких случаях это приводит к нарушению однозначности?

Vladimir_Zaitsev Aug 28 2015 at 11:35

Имел в виду, сочетания типа «JJJJJJJJJJJJA» --> «ЪЪЪЪЪЪА», «JJJJJJJJJJJJJA» --> «ЪЪЪЪЪЪЯ», «JJJJJJJJJJJJJB» --> ошибка.
По аналогии с комментарием nickolaym.
Сейчас вижу, что выразился неверно. Обратное преобразование остается однозначным, просто алгоритм будет сложнее.

Понимаю, что случай нескольких твердых знаков подряд для русского языка не характерен, но входному контракту не противоречит, и лучше бы, чтобы алгоритм на нем не ломался.
В общем, если коды будут образовывать регулярную грамматику, все будет изящнее.

nickolaym Aug 28 2015 at 12:09

Алгоритм не будет сложнее. В данном случае, с префиксами, грамматика осталась регулярной.
Но для глаз это, конечно, ад.

Vladimir_Zaitsev Aug 28 2015 at 13:03

Ваша правда, грамматика осталась регулярной.
Может, подскажите, как называется такое свойство: «если коды образуются с помощью префиксов и постфиксов, ни один код не должен начинаться с постфикса или заканчиваться префиксом»?

ServPonomarev Aug 26 2015 at 10:16

Один оригинальный способ транслитерации туда и обратно — это дистрибутивная семантика. Берёте корпус с сообщениями на транслите и на русском, обучаетесь и получается в итоге (отсюда):

./distance vectors.bin
Enter word or sentence (EXIT to break): avito

Word: avito Position in vocabulary: 1999

Word Cosine distance
— awito 0.693721
авито 0.675299
fvito 0.661414
авита 0.659454
irr 0.642429
овито 0.606189
аviто 0.598056

./distance vectors.bin
Enter word or sentence (EXIT to break): пщщпду
— пщщщпду 0.723194
пщщпд 0.721070
пщпд 0.712373
пщппду 0.704579
пщщаду 0.695897
пщщпдк 0.694641
пщпду 0.692646
ппщду 0.681183
пщщп 0.660203
пгпд 0.653649
гугл 0.649897
поопду 0.647420
ппщпду 0.643923
пщщплу 0.641619
нфтвуч 0.640587
пщщпдуюкг 0.631423
пщщпу 0.620105
gogle 0.616396
иштп 0.612234
google 0.608240

Vladimir_Zaitsev Aug 26 2015 at 11:59

Действительно, оригинально.

AxisPod Aug 26 2015 at 11:45

Как бы есть даже стандарты ГОСТ, и у них всё нормально с обратимостью, зачем изобретать новое? Или даже в вики нельзя было посмотреть? https://goo.gl/qJLoCr

encyclopedist Aug 26 2015 at 12:20

Вы который из Гостов имеете ввиду? Они все либо необратимые, либо с диакритикой, насколько я могу судить по приведенной выми ссылке.

Vladimir_Zaitsev Aug 26 2015 at 12:21

Конечно, смотрел, и много куда еще. Вариант «ГОСТ 16876-71 / таблица 2» почти подходит, но все же использует знаки препинания для твердого и мягкого знаков. А не везде это допустимо. Например, та система, с которой мне надо было общаться, их не принимала.
Ну, а раз все равно что-то менять, решил заодно исправить неудачные, на мой взгляд, решения («Ы», «Й», «Ё»). А «Щ» пришлось менять вынужденно, с радостью бы оставил как в ГОСТе.
В остальном предложенное решение соответствует ГОСТ.

dharma Aug 26 2015 at 12:17

Успенский В. А. К проблеме транслитерации русских текстов латинскими буквами / Труды по НЕматематике. с. 390-412.
http://gen.lib.rus.ec/book/index.php?md5=BD756272C0A86DB220B0A0BA581CA33B

Vladimir_Zaitsev Aug 26 2015 at 13:14

Спасибо за ссылку, познавательно.
У меня стояла гораздо менее «академическая» задача.

maaGames Aug 26 2015 at 12:31

Что может быть очевиднее, чем использовать букву X(икс) для буквы Х(ха)?
Скажете, «экс» звучит не как «хэ»? Ну так и U(йууу) звучит не как У(уууу)…

Кстати, недавно решал проблему перевода из транслита в русский. Однозначного перевода не получилось, разумеется, но удалось реализовать поддержку нескольких внегласных стандартов транслитерального написания. Благо, они не взаимоисключающие в большинстве случаев. Например, буку «Ш» распознаю и как 'w' и как 'sh'. При этом 'shch' однозначно определяется как 'щ', потому что я не придумал в Русском языке слов со слогом «шч». С большинством других сложных букв аналогично получилось разобраться. Но вот мягкий/твёрдый знак, ё и ы доставляют проблемы, конечно. В первую очередь из-за того, что их при транслите или вообще не указывают или пишут «у». Т.е. без последующего прогона по словарю не обойтись.

Vladimir_Zaitsev Aug 26 2015 at 13:22

Тем не менее, ни один стандарт такой «графический» подход не использует. Разве только для номеров автомобилей. Вероятно, классические схемы транслитерации основаны не только и не столько на английской фонетике.

Задача распознавания произвольного транслита интересна, да. Собственно, в статье описана попытка от такой задачи уйти.

maaGames Aug 26 2015 at 13:42

К сожалению, мне нужно было не придумать обратимую транслитеризацию, а обращать уже имеющуюся.
Стандарты вообще тсранные. Вроде бы даже несколько ГОСТов есть, не говоря о прочих вариациях.
Вот если бы появился не «ещё один стандарт»(с), а один единственный обратимый стандарт транслитеризации, который все соблюдают, то было бы няшно.

michael_v89 Aug 26 2015 at 17:26

«веснушчатый» )

maaGames Aug 26 2015 at 17:28

Вот взял и всё испортил.)
Но неотличимость «ь»-«ъ» и «у»-«ы» в большинстве нотаций создаёт больше проблем, чем «веснушчатый».

Mrrl Aug 26 2015 at 18:16

При этом 'shch' однозначно определяется как 'щ', потому что я не придумал в Русском языке слов со слогом «шч»

Довольно быстро находится слово «Машчермет». Правда, это имя собственное — название ж/д станции, да ещё и заграничной…

maaGames Aug 27 2015 at 12:09

Моя реализация нужна лишь для получения человеческих названий фильмов из транслитеральных названий файлов. Надеюсь, машчермета не будет. Тем более, что это не слово, а акроним из трёх слов.

bubuq Aug 26 2015 at 14:42

V čёm korni vašej neprijazni k diakritičeskim znakam?

Krypt Aug 26 2015 at 15:07

Могу предположить, что в отсутствии их доступном кодовом диапазоне.

bubuq Aug 27 2015 at 05:36

В смысле, где-то жёстко требуется ASCII в наше время?

Vladimir_Zaitsev Aug 27 2015 at 15:51

Да, например в софте некоторых томографов.

jar_ohty Aug 26 2015 at 15:11

Слова «исход» и «Ицхак» не портятся — уже хорошо. Но вот англоориентированность в этом стандарте раздражает.

FFormula Aug 26 2015 at 16:32

Недавно изобретал тот же велосипед. Некоторые буквы латинского алфавита в разных транслитах так и остаются неиспользуемыми. Почему бы их не использовать вместо сочетаний HH, JH и т.д.

Пояснения к сочетаниям.
yo — ё, yu — ю, ya — я — Тут всё просто. Как в русском языке эти буквы раскладываются на сочетание звуков «й+о», «й+у», «й+а». Тут всё стандартно и понятно. А вот как быть в обратном случае? У нас есть «е», но нет «э». Есть «и», но нет «ы». Нужно наоборот убрать «й» из звучания. Для этого я использовал «w» — как символ убирающий «й» из звучания. «we» («е» без «й») — «э». «wi» — «ы».
Сама по себе «w» отдельно как буква не используется, поэтому разночтений не бывает.
Для «х» используется «x» (экс). Это даёт возможность убрать разночтения из сочетаний sh, ch, zh, так как «h» сама по себе не используется.

А — A
Б — B
В — V
Г — G
Д — D
Е — E
Ё — Yo
Ж — Zh
З — Z
И — I
Й — Y
К — K
Л — L
М — M
Н — N
О — O
П — P
Р — R
С — S
Т — T
У — U
Ф — F
Х — X
Ц — C
Ч — Ch
Ш — Sh
Щ — Shh
Ь — Q
Ы — Wi
Ъ — J
Э — We
Ю — Yu
Я — Ya

(комментарий пользователя http://habrahabr.ru/users/VasakaInc/)

Mrrl Aug 26 2015 at 18:07

Когда я сочинял такую штуку, то в качестве Й выбрал J, а для смягчения — Y. В остальном совпадало, за исключением:
Щ — Shh
Ь — X
Ъ — Xh
Ё — Yo (чтобы остался вариант для Ѣ)
І — Yi
Ѣ — Ye
Ѳ — Th
Ѵ — W
Были ещё сочетания Gh и Uh. Сочетаний для букв Є и Ї не придумал (Ehh и Yyi ?).

zelenin Aug 26 2015 at 18:19

Просто плАчу.
Есть cldr с реализациями на большинстве ЯП. Но все почему-то думают, что надо делать свой велосипед с маппингом букв, что изначально неуниверсально и нестандартизировано.

Vladimir_Zaitsev Aug 27 2015 at 09:42

Спасибо за наводку, проект интересный.
По теме там нашел вот это: "Cyrillic generally follows ISO 9". То есть ничего неожиданного.
А в реализации для Java транслитерации вроде нет.

zelenin Aug 27 2015 at 09:57

ICU4J is an add-on to the regular JRE that provides:
Transforms – a flexible mechanism for Unicode text conversions
Including Full/Halfwidth conversions, Normalization, Case conversions, Hex conversions, and transliterations between scripts (50+ pairs)

Это не интересный проект, а стандарт де-факто.

Vladimir_Zaitsev Aug 27 2015 at 13:15

Извиняюсь, не туда посмотрел. Конечно, транслитерации есть и она полностью обратима.

Если кому интересно, как пробовал:

maven,
Java:

		Transliterator cyr2lat = Transliterator.getInstance("Cyrillic-Latin");
		Transliterator lat2cyr = Transliterator.getInstance("Latin-Cyrillic");
		String cyr = "НОЧЬ, ПОДЪЕЗД! ночь, подъезд?";
		String lat = cyr2lat.transliterate(cyr);
		String cyr_lat_cyr = lat2cyr.transliterate(lat);
		System.out.println(cyr);
		System.out.println(cyr.length());
		System.out.println(lat);
		System.out.println(lat.length());
		System.out.println(cyr_lat_cyr);

Выводит:

НОЧЬ, ПОДЪЕЗД! ночь, подъезд?
29
NOČʹ̱, PODʺ̱EZD! nočʹ, podʺezd?
31
НОЧЬ, ПОДЪЕЗД! ночь, подъезд?

Все правильно, все по ISO, полностью обратимо вплоть до регистра.
Только как это людям объяснить, как это на клавиатуре набрать, как передать в поле, где допустимы только буквы основной латиницы — непонятно.
Вот всегда так, готово, универсально, стандарт де-факто — а использовать нельзя.

Видимо, грамотным решением было бы написать к icu4j свой транслитератор. Так сказать, помочь им осуществить «tentative plans to add… variants for GOST».

zelenin Aug 27 2015 at 14:28

Какая-то каша) также как будете объяснить как пользоваться своим вариантом.
(при транслите вы выбрали кириллицу, а надо было русский)

Vladimir_Zaitsev Aug 27 2015 at 17:12

Как я объяснял, я в статье написал. Три строчки правил, таблица (в основном всем знакомая). Памятка на пол-листа. Не сразу, конечно, но люди не из IT могут выполнять транслитерацию в уме (в обе стороны) и ввести результат с клавиатуры куда им надо.

А ICU предлагает диакриты, да ещё составные. Их не все unicode системы поддерживают, не говоря о старых. И на клавиатуре их нет.

Под русским Вы имели в виду «Ru-En»? Или «Ru-Latin»? Все четыре варианта приводят к одному транслитератору, просто по более длинным цепочкам.

zelenin Aug 27 2015 at 17:19

ICU ничего не предлагает — вы сами выбираете.
Russian-Latin/BGN; Any-Latin; Latin-ASCII; NFD; [:Nonspacing Mark:] Remove; NFKC; — такой вариант транслитирирует русский в латиницу, денормализует, уберет лишнее и приведет с compatibility форме (например индексы приведет к обычным цифрам, а евро к Е).

Vladimir_Zaitsev Aug 27 2015 at 18:04

Да, «Russian-Latin/BGN» я не заметил, спасибо.
Но BNG же не обратима?
Они и сами так пишут: «Unicode CLDR provides other transliterations based on the U.S. Board on Geographic Names (BGN) transliterations. These are currently unidirectional — to Latin only.»
Она и в принципе не обратима («Ц» --> «TS»), и не чисто буквенная («ь» --> "'").
А фильтры — это хорошо, но здесь не помогает.

zelenin Aug 27 2015 at 19:33

про обратимость я не говорил — это узкий кейс.

bodqhrohro Aug 26 2015 at 18:45

JSH

Почему не JS, например? Или JC (аналогия по хвостику)? Третий символ тут никакой погоды не даёт — ни на обратимость не влияет, ни на читаемость этой псевдофонетической каши. Пожалуй, читаемость даже ухудшает.

TimsTims Aug 26 2015 at 22:34

JSH, HH, JH?
А разве смысл транслитерации не в том, чтобы условно «любой» человек смог более-менее понятно и правильно прочитать и произнести слово?

Ну вот слово, которое вам нужно по-быстрому прочитать:
Щавелевый

Получается как:
Jshavelevihy
йшавелевихы — так прочтет обычный человек по привычке читающий латиницу.

Раз уж вы решили изобретать свой велосипед с двойными HH JSH итд, то раз уж всё-равно всем вашим работникам придется зазубривать новую кодировку букв, то не проще было сразу придумать какой-нибудь цифровой код? Ну допустим X1 X2 X3 X4 итд. учить надо меньше и глаза не пытаются произносить буквы так, как всех учили в школе, ломая прошлую выучку.
А представьте, что будет, когда человек, запомнивший все ваши «стандарты» вдруг решит написать кому-то сообщение, находясь за границей, используя транскрипцию? Он по новой памяти начнет набирать HH JSH итд. И кто его тогда поймет? Думаю только его коллега..)

Vladimir_Zaitsev Aug 27 2015 at 18:53

Так я же признаю, что вариант не идеальный.
Кстати вопрос, почему «обычный человек» читает «y» как «ы»? Какой язык надо было в школе учить для этого?
Да и «Helen» читается вроде как «Элен». Откуда «х»?
По поводу «X1 X2» — это сарказм, да?
Хотелось как раз минимально испортить ГОСТ, но добиться обратимости.
А «привычная» транслитерация, к сожалению, у всех разная.

Mrrl Aug 27 2015 at 19:00

Samaq priwy~naq transliteraciq pri{la e}e iz KOI-8. Ostalxnoe — nowomodnye izobreteniq.
(dA, NADO BYLO E]E POMENQTX REGISTRY)

petropavel Aug 27 2015 at 08:11

Когда-то давно я преобразовывал транслитерацию в кириллицу статистически. Посчитал вероятности переходов между буквами на корпусе русских текстов. Ну и для каждого слова в транслите считал все возможные варианты в кириллице и их вероятности. Побеждал наиболее вероятный вариант. Получалось не без ошибок (лень было словарь прикручивать) но вполне читабельно. Работало, естественно, на любом транслите — собеседники даже не знали, что все их сообщения так обрабатываются, писали как хотели, там никаких формализуемых правил вообще не было и близко.

KvanTTT Aug 27 2015 at 08:50

каждую исходную букву преобразовывать независимо от остальных (без сложностей вроде «в начале / в конце слова» и т.п.)

Ну, кстати, для человека это может быть наоборот удобней, но сложнее для обработки (возможно понадобится уже КС грамматика).

hard_sign Aug 27 2015 at 12:35

Вспоминается байка про то, как в техпаспорте было написано «Хонда Цивик», а при оформлении Зелёной карты в полис вписали «Tsivik» :)

Absent Dec 1 2020 at 11:50

Это могло бы быть смешно, если бы не было так грустно

Мою фамилию «Гаврилюк» в Казахстане писали Gavrilyuk, в России — Gavriliuk, в Молдавии — Gavriliuc, а в Украине — Havryliuk

Украина в этом плане вообще — впереди планеты всей, они умудряются переводить даже имена
К примеру, мои инициалы А.Н. (Александр Николаевич) здесь пишут О.М. (Олександр Миколайович)
В итоге я не узнаю свое имя в документах ни на кириллице, ни на латинице :-(

Absent Dec 1 2020 at 11:36

Спасибо за интересную работу! Очень полезно и познавательно :-)

Хочу поделиться мыслями по поводу вот этой фразы:

код все равно длинны 3 и не стандартный

Во-первых, по-моему, можно ограничиться заменой Щ -> JS (длина — 2, но префикс взят от гласных)
А во-вторых, правильно писать «длины» и «нестандартный» (а точнее — «длиной» и «нестандартен»)

Всех благ! :-)

Vladimir_Zaitsev Mar 29 2021 at 18:15

Спасибо за комментарий!
С замечаниями полностью согласен.

sergey-b Mar 26 2021 at 17:35

del