Ismail10 ноя 2010 в 08:42

Про кодировки и Юникод

3 мин

39K

Типографика *

Из песочницы

Комментарии 16

НЛО прилетело и опубликовало эту надпись здесь

vanuch 10 ноя 2010 в 09:18

А что в вашей таблице подразумевается под «Юникодом»?

barker 10 ноя 2010 в 10:21

Ну, вроде очевидно, что это код символа по стандарту юникода. А снизу его представление в одной из кодировок, UTF-8.

vanuch 10 ноя 2010 в 11:14

Ну, кстати, не очень то оно и очевидно.
Вы б тогда в статье написали, что юникод из себе представляет таблицу из номера и символа закрепленного за этим номером (универсальный набор символов, UCS). А кодировки были придуманы, что бы представить UCS в удобном для компьютеров виде. (озвучил своими словами викпедию). И если там не врут, то UCS — это не кодировки:)
И тогда ваша статья не только поверхностна, но еще и вводит в заблуждение, а за это уже нужно минусовать.

vanuch 10 ноя 2010 в 11:15

Извиняюсь. подумал, что вы автор статьи. В общем, весь негатив я направлял на автора, а не на вас.

Ismail 10 ноя 2010 в 11:55

UCS-2, UCS-4 — это кодировки Юникода. Вообще, Юникод является стандартом, в нем определена не только таблица с номерами и символами, но и другие моменты. После русской Википедии всегда лучше обращаться и к оригинальной: en.wikipedia.org/wiki/Unicode.

vanuch 10 ноя 2010 в 14:02

Вот и верь после этого википедии:)
Беру свои слова обратно.

Но, все таки, «Юникод» в таблице запутывает.

3al 10 ноя 2010 в 19:05

Нет, UCS-2 и UCS-4 это не кодировки. Это кодовые страницы.

Кодовая страница — таблица заранее известного размера, каждой позиции (или коду) которой сопоставлен единственный символ или его отсутствие.

Ismail 10 ноя 2010 в 10:18

Использование слова «латинский» вместо «английский» может сбить с толку людей, кроме того верен и тот, и другой вариант. KOI — не более, чем расширение ASCII. EBCDIC — мало кому интересна сейчас, как и недвоичные машины. Чтобы охватить весь процесс эволюции текстового кодирования у одного человека не хватит ни знаний, ни времени :).

Под Юникодом в таблице двоичное представление кода из верхнего заголовка.

gribozavr 10 ноя 2010 в 15:08

UTF-x — не кодировки. Unicode — вот кодировка. UTF — это по определению Unicode transformation format и не может считаться кодировкой, а только способом сериализации code point'ов Unicode.

3al 10 ноя 2010 в 19:03

Смотря что понимать под кодировкой — charset или encoding. UTF* — вполне себе encoding. UCS2 и UCS4 — charset, а под UCS2 часто понимают и encoding.

Ismail 10 ноя 2010 в 16:12

Так и знал, что тема кодирования достаточно интересной окажется. UTF-x, UCS-x — это кодировки Юникода, если точнее называть. То, чем большинство представляет Юникод, то есть множество символов с присвоенными им номерами, ближе к определению кодовой страницы или набору символов, но это лишь его часть.

А на Хабре весело, однако.

Mercury13 10 ноя 2010 в 16:34

Мало.

3al 10 ноя 2010 в 18:47

Каша в терминах. Рекомендую www.debian.org/doc/manuals/intro-i18n/index.en.html

Очевидно, наиболее практичная кодировка — UTF-8

Спорно. Для обработки UTF-32 заметно удобнее.

Ismail 11 ноя 2010 в 16:25

Термины в порядке. Их тут всего два: кодировка и кодовая страница/таблица символов.

Что-то много путаницы с UCS, UCS еще является аббревиатурой Universal Character Set, из Википедии: en.wikipedia.org/wiki/Universal_Character_Set понятно, что так официально называют таблицу символов (character set) Юникода. Но UCS-2 и UCS-4 — кодировки.

Судьба UTF-32 очень туманна из-за больших неоправданных издержек. Представьте себе, например, к чему приведет перевод баз данных на UTF-32.

3al 11 ноя 2010 в 16:39

Каких издержек? UTF-8, как и UTF-16, являются variable-length. UTF-32 — fixed-length. Представьте реализации, скажем, tolower() в них. И вообще представьте wchar_t в UTF-8.
>UCS-2 и UCS-4 — кодировки.
В первую очередь UCS-2 и UCS-4 — наборы символов. Или кодовые страницы, если следовать терминологии топика. А кодировками для этих наборов символов являются UTF.
Их иногда называют кодировками, чтобы подчеркнуть неполную реализацию стандарта UTF. Например, под «кодировкой» UCS-2 понимают UTF-16 без суррогатных пар. Но отсутствие суррогатных пар — не особенность кодировки (представления набора символов), а особенность самого набора символов, при появлении UCS-2 просто не было юникода за пределами BMP.
>wikipedia
Это не авторитетный источник.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий