Search
Write a publication
Pull to refresh
0
0
Send message
Я тоже как то задумывался над этой темой. Почему UTF-8 именно такой какой есть.

UTF-C:
0xxxxxxx — 1 байт (7 бит)
10xxxxxx xxxxxxxx — 2 байта (14 бит)
110xxxxx xxxxxxxx xxxxxxxx — 3 байта (21 бит)

Предложение:
Использование алгоритма компактного числа (не помню как называется):
0xxxxxxx — 1 байт (7 бит)
1xxxxxxx 0xxxxxxx — 2 байта (14 бит)
1xxxxxxx 1xxxxxxx 0xxxxxxx — 3 байта (21 бит)
1xxxxxxx 1xxxxxxx 1xxxxxxx 0xxxxxxx — 4 байта (28 бит)

Решена проблема нахождения символа по середине текста (Поиск бита 0х80).
Правда нет загашника.
Но можно загашник использовать из ASCII, 0xxxxxxx — 1 байт (7 бит), натягивая текущий алфавит от предыдущего символа.

Information

Rating
Does not participate
Registered
Activity