Комментарии 7
А еще Юникод несовершенен)) Как впрочем и все технологии, он имеет свои недостатки, которые становятся понятны только по прошествии некоторого времени, когда появляется какой-то материал для осмысления и множество идей, как можно было сделать лучше. Но боюсь, что это не тот случай - делать новую кодировку общемирового масштаба просто ради перфекционизма никто не будет...
Вместе с Unicode идет несколько механизмов для кодирования данных, такие как UTF-8, UTF-16, UTF-32.
А с UTF-7 что произошло? ?
Тут ещё забавно, что некоторые его поддерживают, но не до конца - считают, что в нём только 65536 символов (т.е. только BMP), хоть и UTF-8 используется.
Joel Spolski об этом всём писал в 2003 году: https://www.joelonsoftware.com/2003/10/08/the-absolute-minimum-every-software-developer-absolutely-positively-must-know-about-unicode-and-character-sets-no-excuses/
С того времени принципиально ничего не поменялось, только добавилось немножко заполнение плоскостей unicode и появилось больше языков, которые всё так же плохо работают со строками переменной длины.
Для меня было откровением, что в unicode можно буквы "й" и "ё" записать по-разному - одним символом и двумя символами ("и" + глиф, "е" + глиф):
Размер разный
Двойной клик на слове с такими "слепленными" "й" и "ё" выделяет только половину слова
Про сортировку и прочее вообще молчу.
См. https://habr.com/ru/post/262679/
Если получится, то вот:
плойка - 1 символ
плойка - 2 символа
Что такое Unicode? Или как компьютеры работают с символами