dzigoro Nov 16 2012 at 07:42

Что нужно знать каждому разработчику о кодировках и наборах символов для работы с текстом, часть 2

12 min

83K

Programming *

Translation

+72

Comments 21

alexander007 Nov 16 2012 at 09:48

Вторая часть интереснее. Спасибо за перевод.

vividsnow Nov 16 2012 at 10:49

Tom Christiansen's slides for Unicode Support Shootout «The Good, the Bad, & the (mostly) Ugly» @OSCON2011

Keyten Nov 16 2012 at 11:19

Добавлю эту ссылочку: habrahabr.ru/post/147843/

vanxant Nov 16 2012 at 11:33

Ну и ещё одно дополнение: одной только кодировкой Unicode проблему локализации не решить.
Типичный пример: для сравнения двух подстрок на естественных яызках обычно обе подстроки приводят к одному регистру. Но, например, в арабском регистров как таковых нет, но на 28 букв приходится 72 символа (так как начертание буквы зависит от соседних букв, чтобы получилась непрерывная вязь). Да и в европейских языках возможны «подставы», если, например, поставили ударение.
Широко распространенных универсальных библиотек, которые бы позволяли работать с любыми языками, насколько я знаю пока нет.

ksurent Nov 16 2012 at 12:18

Типичный пример: для сравнения двух подстрок на естественных яызках обычно обе подстроки приводят к одному регистру.

В стандарте юникода для этого есть операция case folding, ей и надо пользоваться.

3al Nov 16 2012 at 15:38

Типичный пример: для сравнения двух подстрок на естественных яызках обычно обе подстроки приводят к одному регистру.

Никогда не делайте так. Это неправильно. Юникод не настолько прост. Вообще, стоит прочитать первый ответ к этому вопросу по перлу, в нём раскрываются многие сложности юникода.

Для сравнения подстрок существуют нормализованные формы. Это НЕ lowercase/uppercase.

Широко распространенных универсальных библиотек, которые бы позволяли работать с любыми языками, насколько я знаю пока нет.

userguide.icu-project.org/collation

mayorovp Nov 17 2012 at 05:34

Для сравнения подстрок существуют нормализованные формы. Это НЕ lowercase/uppercase.

В нормализованных формах разные регистры остаются разными регистрами. Для регистронезависимого сравнения следует использовать обе операции — и нормализацию, и lowercase. Насчет порядка затрудняюсь, но, кажется, можно использовать любой.

3al Nov 17 2012 at 07:01

Эм. lowercase использовать не надо, нужно нечто умнее, хотя бы из ICU. Процитирую кусок из первой ссылки.

Consider that the uc("σ") and uc("ς") are both "Σ", but lc("Σ") cannot possibly return both of those.

Дополнительно,

Consider that Unicode::Collate::->new(level => 1)->eq(«d», "ð") is true, but Unicode::Collate::Locale->new(locale=>«is»,level => 1)->eq(«d», " ð") is false. Similarly, «ae» and "æ" are eq if you don’t use locales, or if you use the English one, but they are different in the Icelandic locale

Unicode::Collate перлоспецифично, явление — нет.

mayorovp Nov 17 2012 at 07:20

Хм, а в .NET все еще плачевнее — "ς".ToUpperInvariant() возвращает "ς" вместо "Σ".

Интересно, есть ли подобный контрпример к операции uppercase?

akzhan Oct 14 2016 at 18:58

надо использовать fc, то есть case folding, о чем и написано парой комментов выше.

pcdesign Nov 17 2012 at 07:33

На счет перла, подскажите, плз. Вот такой ворнинг:

" Wide character in print at "

И вот такие кульбиты:

ÐÑÐµÐ¼Ð° Ð¿ÑÐ¸ÑÐ¾Ð°Ð½Ð°Ð»Ð¸ÑÐ¸ÑÐºÐ¾Ñ ÑÐµÐ¾ÑÐ¸ÑÐ¸ ÐÐ° Ð¿ÑÐµÐ´ÑÑÐ°Ð²ÑÐ° ÑÐµÐ´Ð½Ñ Ð¾Ð´ ÑÑÐ¸ Ð¸Ð½ÑÑÐ°Ð½ÑÐµ Ð¿ÑÐ¸ÑÐ¸ÑÐºÐ¾Ð³ Ð°Ð¿Ð°ÑÐ°ÑÐ° (ÐÐ°, ÐÐ½Ð¾ Ð¸ ÐÐ°Ð´ ÐÐ°). Ð£ Ð´Ð¸Ð½Ð°Ð¼Ð¸ÑÐ¸ Ð¿ÑÐ¸ÑÐ¸ÑÐºÐ¾Ð³ Ð¶Ð¸Ð²Ð¾ÑÐ° ÐÐ° ÑÐµ

=============

Я и гуглил, и все что можно перепробовал.

Кроме, Unicode::Collate о котором только что узнал :)

ksusha Nov 17 2012 at 18:33

Это значит, что строка кодирована во внутреннем формате перла.
Для устранения этих проблем есть модуль Encode.
Пример (исходник сохраняете в utf8):

use strict;
use warnings;
use Encode;

my $str = "бла-бла";
print $str; # тут будет всё нормально

$str = Encode::decode_utf8($str); # переводим строку из utf8 во внутренний формат перла
print $str; # упс! Wide character in print

$str = Encode::encode_utf8($str); # переводим строку обратно в utf-8
print $str; # бинго

pcdesign Nov 18 2012 at 10:48

Спасибо, ksusha

Если вот так:

mysite.ru/cgi-bin/script.pl

То никаких проблем с кодировкой.

А если вот так:

<iframe src="http://mysite.ru/cgi-bin/script.pl" frameborder="0" width="900" height="200" ></iframe>

То получается: " Wide character in print at "

Я уже не знаю куда копать :)

bes_internal Nov 16 2012 at 16:00

Отлично! С новым осмыслением перечитал документацию к своему языку программирования про работу с многобайтными символами. Теперь всё стало на свои места.

m1el Nov 16 2012 at 16:49

>На самом деле любая строка в Javascript кодирована в UTF-8.
На самом деле, в UTF-16.
alert(decodeURIComponent("%F0%90%80%81").length)

m1el Nov 16 2012 at 16:58

Заодно, проверка верстки хабра

test

mayorovp Nov 17 2012 at 05:38

На самом деле, в Javascript символ — это некоторая абстракция, которую невозможно преобразовать в число иначе как явным процессом кодирования. Это как раз тот самый крайне редкий случай, когда мы работаем с текстом без кодировки.

Kaener Nov 17 2012 at 12:27

На самом деле, не всё так просто — рекомендую хорошую статью: JavaScript’s internal character encoding.

donRumatta Nov 16 2012 at 21:23

Системы, передающие друг другу информацию всегда должны указывать рабочую кодировку. Сайт например говорит браузеру, что он отдает информацию в UTF-8.

Вот тут интересно: а как сайт скажет браузеру, как декодировать информацию о том, что информация от сайта приходит в UTF-8?

owatun015 Nov 17 2012 at 01:06

В ASCII (так как она совместима со всеми кодировками или практически со всеми) используя символы с кодами 0..127

donRumatta Nov 17 2012 at 08:54

о, и в самом деле. спасибо за просвещение.