Комментарии 16
НЛО прилетело и опубликовало эту надпись здесь
А что в вашей таблице подразумевается под «Юникодом»?
Ну, вроде очевидно, что это код символа по стандарту юникода. А снизу его представление в одной из кодировок, UTF-8.
Ну, кстати, не очень то оно и очевидно.
Вы б тогда в статье написали, что юникод из себе представляет таблицу из номера и символа закрепленного за этим номером (универсальный набор символов, UCS). А кодировки были придуманы, что бы представить UCS в удобном для компьютеров виде. (озвучил своими словами викпедию). И если там не врут, то UCS — это не кодировки:)
И тогда ваша статья не только поверхностна, но еще и вводит в заблуждение, а за это уже нужно минусовать.
Вы б тогда в статье написали, что юникод из себе представляет таблицу из номера и символа закрепленного за этим номером (универсальный набор символов, UCS). А кодировки были придуманы, что бы представить UCS в удобном для компьютеров виде. (озвучил своими словами викпедию). И если там не врут, то UCS — это не кодировки:)
И тогда ваша статья не только поверхностна, но еще и вводит в заблуждение, а за это уже нужно минусовать.
Извиняюсь. подумал, что вы автор статьи. В общем, весь негатив я направлял на автора, а не на вас.
UCS-2, UCS-4 — это кодировки Юникода. Вообще, Юникод является стандартом, в нем определена не только таблица с номерами и символами, но и другие моменты. После русской Википедии всегда лучше обращаться и к оригинальной: en.wikipedia.org/wiki/Unicode.
Вот и верь после этого википедии:)
Беру свои слова обратно.
Но, все таки, «Юникод» в таблице запутывает.
Беру свои слова обратно.
Но, все таки, «Юникод» в таблице запутывает.
Нет, UCS-2 и UCS-4 это не кодировки. Это кодовые страницы.
© habrahabr.ru/blogs/typography/107827/
Кодовая страница — таблица заранее известного размера, каждой позиции (или коду) которой сопоставлен единственный символ или его отсутствие.
© habrahabr.ru/blogs/typography/107827/
Использование слова «латинский» вместо «английский» может сбить с толку людей, кроме того верен и тот, и другой вариант. KOI — не более, чем расширение ASCII. EBCDIC — мало кому интересна сейчас, как и недвоичные машины. Чтобы охватить весь процесс эволюции текстового кодирования у одного человека не хватит ни знаний, ни времени :).
Под Юникодом в таблице двоичное представление кода из верхнего заголовка.
Под Юникодом в таблице двоичное представление кода из верхнего заголовка.
UTF-x — не кодировки. Unicode — вот кодировка. UTF — это по определению Unicode transformation format и не может считаться кодировкой, а только способом сериализации code point'ов Unicode.
Так и знал, что тема кодирования достаточно интересной окажется. UTF-x, UCS-x — это кодировки Юникода, если точнее называть. То, чем большинство представляет Юникод, то есть множество символов с присвоенными им номерами, ближе к определению кодовой страницы или набору символов, но это лишь его часть.
А на Хабре весело, однако.
А на Хабре весело, однако.
Мало.
Каша в терминах. Рекомендую www.debian.org/doc/manuals/intro-i18n/index.en.html
Спорно. Для обработки UTF-32 заметно удобнее.
Очевидно, наиболее практичная кодировка — UTF-8
Спорно. Для обработки UTF-32 заметно удобнее.
Термины в порядке. Их тут всего два: кодировка и кодовая страница/таблица символов.
Что-то много путаницы с UCS, UCS еще является аббревиатурой Universal Character Set, из Википедии: en.wikipedia.org/wiki/Universal_Character_Set понятно, что так официально называют таблицу символов (character set) Юникода. Но UCS-2 и UCS-4 — кодировки.
Судьба UTF-32 очень туманна из-за больших неоправданных издержек. Представьте себе, например, к чему приведет перевод баз данных на UTF-32.
Что-то много путаницы с UCS, UCS еще является аббревиатурой Universal Character Set, из Википедии: en.wikipedia.org/wiki/Universal_Character_Set понятно, что так официально называют таблицу символов (character set) Юникода. Но UCS-2 и UCS-4 — кодировки.
Судьба UTF-32 очень туманна из-за больших неоправданных издержек. Представьте себе, например, к чему приведет перевод баз данных на UTF-32.
Каких издержек? UTF-8, как и UTF-16, являются variable-length. UTF-32 — fixed-length. Представьте реализации, скажем, tolower() в них. И вообще представьте wchar_t в UTF-8.
>UCS-2 и UCS-4 — кодировки.
В первую очередь UCS-2 и UCS-4 — наборы символов. Или кодовые страницы, если следовать терминологии топика. А кодировками для этих наборов символов являются UTF.
Их иногда называют кодировками, чтобы подчеркнуть неполную реализацию стандарта UTF. Например, под «кодировкой» UCS-2 понимают UTF-16 без суррогатных пар. Но отсутствие суррогатных пар — не особенность кодировки (представления набора символов), а особенность самого набора символов, при появлении UCS-2 просто не было юникода за пределами BMP.
>wikipedia
Это не авторитетный источник.
>UCS-2 и UCS-4 — кодировки.
В первую очередь UCS-2 и UCS-4 — наборы символов. Или кодовые страницы, если следовать терминологии топика. А кодировками для этих наборов символов являются UTF.
Их иногда называют кодировками, чтобы подчеркнуть неполную реализацию стандарта UTF. Например, под «кодировкой» UCS-2 понимают UTF-16 без суррогатных пар. Но отсутствие суррогатных пар — не особенность кодировки (представления набора символов), а особенность самого набора символов, при появлении UCS-2 просто не было юникода за пределами BMP.
>wikipedia
Это не авторитетный источник.
Зарегистрируйтесь на Хабре, чтобы оставить комментарий
Про кодировки и Юникод