poofeg Feb 16 2012 at 09:09

UTF-8: Кодирование и декодирование

3 min

226K

Programming *

From sandbox

+27

Comments 25

kirilloid Feb 16 2012 at 10:11

А что, на vbscript кто-то пишет?
На jscript, кстати, эти функции пишутся тривиально:

function utf8_decode (str) { return unescape(encodeURIComponent(str)); }
function utf8_encode (str) { return decodeURIComponent(escape(str)); }

* идея взята из комментария на phpjs.org

Dehumanizer Feb 16 2012 at 12:07

А почему минусуете? Субьективное мнение — тоже мнение!

stmuxa Feb 16 2012 at 12:37

Это хабр, детка.

Dehumanizer Feb 16 2012 at 12:51

) Ну тогда держитесь!

kirilloid Feb 16 2012 at 12:56

Завидуют, что в js проблема решается проще =))

AndreyDmitriev Feb 16 2012 at 10:29

Мне недавно как раз потребовалось автоматом перегонять текст из UTF8 в юникод, и я уже почти изобрёл велосипед, но наткнулся на маленькую утилиту uniconv, которая меня очень выручила.
Может кому-нибудь тоже пригодится.

eill Feb 16 2012 at 10:33

«Символы же с кодами от 128 кодируются 2-мя байтами, с кодами от 2048 — 3-мя, от 65536 — 4-мя. Так можно было бы и до 6-ти байт дойти, но кодировать ими уже ничего.»

facepaw.jpg

1 байт — это 8 бит, следовательно максимальное число, записывание им равно 256 (2 в 8 степени), следовательно 2 байта — это 2 в 16 степени, или 65536. Следовательно 3 байта — это 65536*256 или 16777216.

galanc Feb 16 2012 at 10:43

Да, вот только запись числа, кодируемого 1 байтом информации, в шестнадцатиричном виде занимает 2 байта.

DunkanVS Feb 16 2012 at 10:45

Если один байт полностью использовать под кодирование символа, то разобрать сколько их там еще осталось нельзя будет… Поэтому, если код символа больше 128, то он уже кодируется двумя байтами.

Semisonic Feb 16 2012 at 10:50

Посмотрите внимательно на схему преобразования. Некоторые биты в UTF-8 представлении символов являются вспомогательными, чтобы можно было при разборе данных понимать, сколько байт считывать для очередного символа.

eill Feb 16 2012 at 10:52

да, уже прочитал. Минусуйте :)

grigoryvp Feb 16 2012 at 11:05

Спасибо, неплохо написано. Что могу добавить:

Начало дублирует ANSII, а дальше остаток латиницы, кирилица, другие европейские и азиатские символы

Это не так, первые 255 unicode code points соответствуют Latin-1 а не ASCII.

Так можно было бы и до 6-ти байт дойти, но кодировать ими уже ничего.

Это не так. До 4-х байт UTF-16 обрезали для совместимости по ассортименту code points с UTF-16, это определено RFC3629. Более того, обрезано оно не до 4-х байт, а до 0x10FFFF code points, тоесть четвертый байт используется не целиком.

gribozavr Feb 16 2012 at 15:33

Ну вот… Начало хорошее, но дальше Википедии вы не дошли и получился не соответствующий стандарту Unicode велосипед. Почему? Например, потому что вы позволяете кодировать в UTF-8 старшие и младшие суррогаты. Также неправильно обрабатываются overlong sequences и ошибочные последовательности. Эти все вещи должны заменяться на специальный кодпоинт и производиться восстановление после ошибок строго так, как написано в стандарте.

Можете проверять свой декодировщик на тесте:
www.cl.cam.ac.uk/~mgk25/ucs/examples/UTF-8-test.txt

poofeg Feb 16 2012 at 20:35

Спасибо, учту. Поспешил конечно, первая статья моя. С суррогатами разберусь.

poofeg Feb 17 2012 at 14:02

тест теперь проходит

AndryX Feb 16 2012 at 15:38

А так как ничего рабочего не нашел, то пришлось писть/дописывать самому.

Кхм-кхм :).
habrahabr.ru/blogs/php/113715/

poofeg Feb 16 2012 at 20:24

На VBScript. У него даже побитовый сдвиг отсутствует :).

aNDREIQA Feb 16 2012 at 18:39

ничего не сказано про точки кода — базовое понятие utf.

aNDREIQA Feb 16 2012 at 18:49

забыл оставить это

aNDREIQA Feb 16 2012 at 18:57

www.w3.org/International/articles/definitions-characters/Overview.ru.php

vanxant Feb 16 2012 at 21:08

Блин, это ж бейсик! Последний раз лет 15 назад его видел:)

poofeg Feb 17 2012 at 00:33

Лучше и не видеть, но всякие задачи встают иногда :).

omegastripes Jan 31 2015 at 21:34

VBScript имеет в своем распоряжении компонент ADODB.Stream, которым Windows комплектуется по-умолчанию. Это вполне себе почти «встронное» средство для работы с UTF-8.

JaLoveAst1k May 10 2015 at 14:28

Практически ровно 3 года прошло, однако.

anti_smithhh Feb 11 2022 at 05:55

offtopic: «Так можно было бы и до 6-ти байт дойти, но кодировать ими уже ничего.»

в конце «нЕчего» ☺️