Как стать автором
Поиск
Написать публикацию
Обновить

Кодирование UTF-8 без ветвления

Уровень сложностиСредний
Время на прочтение6 мин
Количество просмотров2.4K
Всего голосов 17: ↑17 и ↓0+22
Комментарии7

Комментарии 7

Непонятно, зачем автор упирался в раст, если уж захотел избавиться от джампов в машинном коде, так и писал бы прямо на ассемблере, там же и SIMD можно вкорячить. Если же цель была добиться этого именно на расте, то конкретно этот кейс нельзя экстраполировать на любые вычисления, надо будет постоянно лазить в ассемблерный листинг и контролировать выхлоп. Я не очень знаю зачем это всё с практической точки зрения, но как упражение - норм.

Вроде бы кодирование символов в UTF-8 в некоторых языках зависит от контекста, поэтому непонятно, зачем вообще упарываться в отдельную кодовую точку.

Преобразование между UTF-8 и UCS4 - однозначно и не зависит от локали. Один символ языка может раскладываться на несколько уникодных кодпойнтов (скажем, диакритика в определённых нормализациях кодируется отдельно в дополнение к обычному символу), но это другое.

Rust is the new C.

Убийца Си? Ох уж сколько их было, и каждый год по три штуки появляется.
New C --> D тогда уже.

D скорее на замену плюсам делали (по крайней мере после прихода Александреску).

Зарегистрируйтесь на Хабре, чтобы оставить комментарий