Chitanava 30 янв в 13:58

Кодирование UTF-8 без ветвления

Средний

6 мин

2.4K

Блог компании Московский кредитный банкC*IT-стандарты*Алгоритмы*Программирование*

Туториал

Recovery Mode

Перевод

+22

Комментарии 7

AndreyDmitriev 30 янв в 16:07

Непонятно, зачем автор упирался в раст, если уж захотел избавиться от джампов в машинном коде, так и писал бы прямо на ассемблере, там же и SIMD можно вкорячить. Если же цель была добиться этого именно на расте, то конкретно этот кейс нельзя экстраполировать на любые вычисления, надо будет постоянно лазить в ассемблерный листинг и контролировать выхлоп. Я не очень знаю зачем это всё с практической точки зрения, но как упражение - норм.

vadimr 30 янв в 18:38

Вроде бы кодирование символов в UTF-8 в некоторых языках зависит от контекста, поэтому непонятно, зачем вообще упарываться в отдельную кодовую точку.

unreal_undead2 31 янв в 07:11

Преобразование между UTF-8 и UCS4 - однозначно и не зависит от локали. Один символ языка может раскладываться на несколько уникодных кодпойнтов (скажем, диакритика в определённых нормализациях кодируется отдельно в дополнение к обычному символу), но это другое.

Tuxman 9 фев в 19:05

Почему статья опубликована в хабе C, если весь представленный код на Rust?

redfox0 1 мар в 13:46

Rust is the new C.

Tuxman 1 мар в 16:51

Убийца Си? Ох уж сколько их было, и каждый год по три штуки появляется.
New C --> D тогда уже.

unreal_undead2 3 мар в 06:02

D скорее на замену плюсам делали (по крайней мере после прихода Александреску).

Зарегистрируйтесь на Хабре, чтобы оставить комментарий