poofeg Feb 16 2012 at 13:09

UTF-8: Кодирование и декодирование

3 min

210K

Programming*

From sandbox

+27

Comments 25

kirilloid Feb 16 2012 at 14:11

А что, на vbscript кто-то пишет?
На jscript, кстати, эти функции пишутся тривиально:

function utf8_decode (str) { return unescape(encodeURIComponent(str)); }
function utf8_encode (str) { return decodeURIComponent(escape(str)); }

* идея взята из комментария на phpjs.org

-3

Dehumanizer Feb 16 2012 at 16:07

А почему минусуете? Субьективное мнение — тоже мнение!

stmuxa Feb 16 2012 at 16:37

Это хабр, детка.

Dehumanizer Feb 16 2012 at 16:51

) Ну тогда держитесь!

kirilloid Feb 16 2012 at 16:56

Завидуют, что в js проблема решается проще =))

AndreyDmitriev Feb 16 2012 at 14:29

Мне недавно как раз потребовалось автоматом перегонять текст из UTF8 в юникод, и я уже почти изобрёл велосипед, но наткнулся на маленькую утилиту uniconv, которая меня очень выручила.
Может кому-нибудь тоже пригодится.

eill Feb 16 2012 at 14:33

«Символы же с кодами от 128 кодируются 2-мя байтами, с кодами от 2048 — 3-мя, от 65536 — 4-мя. Так можно было бы и до 6-ти байт дойти, но кодировать ими уже ничего.»

facepaw.jpg

1 байт — это 8 бит, следовательно максимальное число, записывание им равно 256 (2 в 8 степени), следовательно 2 байта — это 2 в 16 степени, или 65536. Следовательно 3 байта — это 65536*256 или 16777216.

-12

galanc Feb 16 2012 at 14:43

Да, вот только запись числа, кодируемого 1 байтом информации, в шестнадцатиричном виде занимает 2 байта.

DunkanVS Feb 16 2012 at 14:45

Если один байт полностью использовать под кодирование символа, то разобрать сколько их там еще осталось нельзя будет… Поэтому, если код символа больше 128, то он уже кодируется двумя байтами.

Semisonic Feb 16 2012 at 14:50

Посмотрите внимательно на схему преобразования. Некоторые биты в UTF-8 представлении символов являются вспомогательными, чтобы можно было при разборе данных понимать, сколько байт считывать для очередного символа.

eill Feb 16 2012 at 14:52

да, уже прочитал. Минусуйте :)

grigoryvp Feb 16 2012 at 15:05

Спасибо, неплохо написано. Что могу добавить:

Начало дублирует ANSII, а дальше остаток латиницы, кирилица, другие европейские и азиатские символы

Это не так, первые 255 unicode code points соответствуют Latin-1 а не ASCII.

Так можно было бы и до 6-ти байт дойти, но кодировать ими уже ничего.

Это не так. До 4-х байт UTF-16 обрезали для совместимости по ассортименту code points с UTF-16, это определено RFC3629. Более того, обрезано оно не до 4-х байт, а до 0x10FFFF code points, тоесть четвертый байт используется не целиком.

gribozavr Feb 16 2012 at 19:33

Ну вот… Начало хорошее, но дальше Википедии вы не дошли и получился не соответствующий стандарту Unicode велосипед. Почему? Например, потому что вы позволяете кодировать в UTF-8 старшие и младшие суррогаты. Также неправильно обрабатываются overlong sequences и ошибочные последовательности. Эти все вещи должны заменяться на специальный кодпоинт и производиться восстановление после ошибок строго так, как написано в стандарте.

Можете проверять свой декодировщик на тесте:
www.cl.cam.ac.uk/~mgk25/ucs/examples/UTF-8-test.txt

poofeg Feb 17 2012 at 00:35

Спасибо, учту. Поспешил конечно, первая статья моя. С суррогатами разберусь.

poofeg Feb 17 2012 at 18:02

тест теперь проходит

AndryX Feb 16 2012 at 19:38

А так как ничего рабочего не нашел, то пришлось писть/дописывать самому.

Кхм-кхм :).
habrahabr.ru/blogs/php/113715/

poofeg Feb 17 2012 at 00:24

На VBScript. У него даже побитовый сдвиг отсутствует :).

aNDREIQA Feb 16 2012 at 22:39

ничего не сказано про точки кода — базовое понятие utf.

aNDREIQA Feb 16 2012 at 22:49

забыл оставить это

aNDREIQA Feb 16 2012 at 22:57

www.w3.org/International/articles/definitions-characters/Overview.ru.php

vanxant Feb 17 2012 at 01:08

Блин, это ж бейсик! Последний раз лет 15 назад его видел:)

poofeg Feb 17 2012 at 04:33

Лучше и не видеть, но всякие задачи встают иногда :).

omegastripes Feb 1 2015 at 00:34

VBScript имеет в своем распоряжении компонент ADODB.Stream, которым Windows комплектуется по-умолчанию. Это вполне себе почти «встронное» средство для работы с UTF-8.

JaLoveAst1k May 10 2015 at 17:28

Практически ровно 3 года прошло, однако.

anti_smithhh Feb 11 2022 at 08:55

offtopic: «Так можно было бы и до 6-ти байт дойти, но кодировать ими уже ничего.»

в конце «нЕчего» ☺️

Show the best of all time