QPSK_Man Feb 25 2021 at 08:23

UTF-8 vs UTF-16. Несколько советов программистам

7 min

59K

IT Standards*Algorithms*History of IT

From sandbox

Comments 9

Sly_tom_cat Feb 25 2021 at 08:51

Минимальная единица представления информации – байт.

Ась?! вроде как минимальная единица это бит.

Байт вообще то — слово. Причем размер слова вообще-то очень сильно разный был на заре развития вычислительной техники. Там и 4 и 12 и 32 бита на слова были и еще куча более экзотических вариантов (это если еще не касаться троичной системы счисления).

8 бит были выбраны преимущественно потому, что там с запасом было на кодирование латиницы, символов, цифр и других спец кодов.

Jeka178RUS Feb 25 2021 at 10:14

Минимальная единица — бит, минимальная единица представления — байт. Один бит никуда не запишешь и даже в переменную не запихаешь.

Videoman Feb 25 2021 at 11:29

Минимально адресуемая единица в компьютерной технике это все таки это byte (кусочек).
word — два байта (слово)
dword — четыре байта (двойное слово)
qword — восемь байт (четверное слово)
и т.д.
Насколько я понял это пошло от 16-битных машин где шина была, как правило, 16-бит.

Sly_tom_cat Feb 25 2021 at 14:34

Само понятие машинного слова — было очень размытым на заре вычислительной техники.
Байт — это всего-лишь один из варинтов этого самого машинного слова. Слово из двух байт — это уже гораздо более поздняя интерпретация для 16-битных машин (т.е. где и машинное слово было 16 бит).

Но вы говорите про минимально адресуемую единицу информации, а автор статьи про минимальную единицу представления информации.

d-stream Feb 26 2021 at 22:47

Даже родился байт 6 битовым… бывал и 7 и 9 битовым…

Deosis Feb 26 2021 at 05:38

(старший бит справа).

Первый раз такое вижу. При этом парой строчек ниже биты идут в обратном порядке.

QPSK_Man Feb 26 2021 at 06:32

Я работал со многими битовыми просмотрщиками, скажу так, все отображают биты по-разному, так что это дело вкуса, я привык и мне удобней справа.

dmitryfedoseev Mar 19 2021 at 17:26

В 1963 году ASCII был 7 бит.

eandr_67 May 8 2023 at 11:35

Кодирование символов таблицы Юникод, расположенных в ячейках, номера которых начинаются от 1048575 возможно только с использованием кодировки UTF-16.

Это в UTF-16 ограниченное кол-во символов: она позволяет кодировать не более 1112064 символов (2048 кодов из общего диапазона 1114112 используются для кодирования суррогатных пар). А способ кодирования, используемый в UTF-8, даже в урезанном 4 байтном варианте позволяет записать 2²¹ = 2097152 кода. Стандарт Unicode искусственно ограничивает и максимально возможное количество символов (1112064), и максимальный диапазон их кодов (1114112) — именно для того, чтобы вписаться в ограничения UTF-16.