Предложение:
Использование алгоритма компактного числа (не помню как называется):
0xxxxxxx — 1 байт (7 бит)
1xxxxxxx 0xxxxxxx — 2 байта (14 бит)
1xxxxxxx 1xxxxxxx 0xxxxxxx — 3 байта (21 бит)
1xxxxxxx 1xxxxxxx 1xxxxxxx 0xxxxxxx — 4 байта (28 бит)
Решена проблема нахождения символа по середине текста (Поиск бита 0х80).
Правда нет загашника.
Но можно загашник использовать из ASCII, 0xxxxxxx — 1 байт (7 бит), натягивая текущий алфавит от предыдущего символа.
UTF-C:
0xxxxxxx — 1 байт (7 бит)
10xxxxxx xxxxxxxx — 2 байта (14 бит)
110xxxxx xxxxxxxx xxxxxxxx — 3 байта (21 бит)
Предложение:
Использование алгоритма компактного числа (не помню как называется):
0xxxxxxx — 1 байт (7 бит)
1xxxxxxx 0xxxxxxx — 2 байта (14 бит)
1xxxxxxx 1xxxxxxx 0xxxxxxx — 3 байта (21 бит)
1xxxxxxx 1xxxxxxx 1xxxxxxx 0xxxxxxx — 4 байта (28 бит)
Решена проблема нахождения символа по середине текста (Поиск бита 0х80).
Правда нет загашника.
Но можно загашник использовать из ASCII, 0xxxxxxx — 1 байт (7 бит), натягивая текущий алфавит от предыдущего символа.