Denxc 14 авг 2013 в 16:51

ZBase32, Base32 и Base64 алгоритмы кодирования

4 мин

46K

Программирование*.NET*Алгоритмы*

+32

Комментарии 26

vsespb 14 авг 2013 в 17:07

Не так давно у меня возникла необходимость использовать кодированные данные в адресе http-ссылки. Как известно, стандарт http подразумевает регистронезависимые url-адреса и любой прокси-сервер или браузер мог испортить данные в случае использования регистрочувствительного кодирования.

Это что-то новенькое. И в теории и на практике. Только домен — case insensetive.

+29

Denxc 14 авг 2013 в 19:11

Буду иметь ввиду, спасибо!

Ganga 14 авг 2013 в 19:58

Схема тоже case insensitive, хотя и рекомендуется использовать только lower case.

tools.ietf.org/html/rfc3986#section-3.1

KvanTTT 14 авг 2013 в 17:15

А можно наверное улучшить алгоритм, чтобы использовать символы, количество которых не кратно степени двойки? Тогда можно будет достичь еще большей степени сжатия, по сравнению с base64.

bolk 14 авг 2013 в 17:27

en.wikipedia.org/wiki/Ascii85

KvanTTT 14 авг 2013 в 17:32

Можно дополнить реализацию в статье методом для кодирования любым набором символов для универсальности.

KvanTTT 7 сен 2016 в 00:23

К слову, такой алгоритм я реализовал в итоге в свое время: Кодирование бинарных данных в строку с алфавитом произвольной длины (BaseN).

rozhik 14 авг 2013 в 17:21

Позволяет кодировать информацию, представленную набором байт, используя всего 62 символа: A-Z, a-z, 0-9. В конце кодированной последовательности может содержаться несколько спецсимволов (обычно “=”).

65 символов (включая равно, /, +).
Исправьте плиз.

volkanin 14 авг 2013 в 17:26

вообще-то, не 65, а 64

Krypt 14 авг 2013 в 17:29

= используется чтобы выровнять последовательность.

volkanin 14 авг 2013 в 17:32

Ладно, тут есть о чём поспорить, но алфавит выходной всё равно 64 символа

dsd_corp 16 авг 2013 в 01:52

Еще можно вспомнить сопутствующие RFC для MIME кодировок, по которым Base64 последовательность разбивается на куски по 76 символов с помощью перевода строки CRLF, например в email для ограничения длины строки в 80 байт для совместимости со старыми нюансами стандартов.
Хотя по сути вы правы: = относится непосредственно к самой Base64 кодировке, не смотря на то, что в ее «алфавит» не входит.

rozhik 14 авг 2013 в 17:36

65, всё верно. 64 для кодирования данных и символ равно как выравнивание хвостовых битов.

eaa 14 авг 2013 в 17:52

Есть модифицированный вариант для УРЛов, вот из вики: «Стандартом Base64-кодирования URL адресов, признается вариант, когда символы '+' и '/' заменяются, соответственно, на '-' и '_' (RFC3548, раздел 4).»

rozhik 14 авг 2013 в 19:57

Благодарю за RFC3548. Я использовал другие символы по собственной глупости.

Denxc 14 авг 2013 в 19:10

Да, спасибо за уточнение.

amosk 14 авг 2013 в 21:49

А как правильно — последовательность байт или байтов?

Indexator 15 авг 2013 в 08:16

Байтов.
Так же как и «пара носков», а не «пара носок»…

vip_delete 14 авг 2013 в 23:23

Наиболее проработанная таблица символов для облегчения запоминания кодированной информации.

в заключение 4nq7bcgosuemmwcq4gy7ddbcrdeadwcn4napdysttuea6egosmembwfhrdemdwcm4n77bcby4n97bxsozzea9wcn4n67bcby4nhnbwf94n9pbq6oszemxwf74nanh

Запомнил сразу!

artem_dev 14 авг 2013 в 23:31

Еще есть Base58. Тоже используется для разного рода URL-ов. Там не используются похожие символы типа 0 O I l (латинское i большое и латинское л малое) чтобы было меньше визуальной путаницы и нету символов + и / т.к. они влияют на интерпретацию URL.

dsd_corp 16 авг 2013 в 01:57

Когда-то для внутренностей одного проекта я реализовывал даже Base128. Суть была ровно той же, что и Base64, только оверхед меньше(114% против 133%). Даже не знаю, существует ли такой стандарт кодировки. По идее должен, т.к. очевиден.
P.S. паддинг для Base128, конечно же, будет длиннее, потому она не выгодна для слишком коротких кусков данных.

KvanTTT 20 авг 2013 в 01:50

Исходниками не поделитесь? Хотя конечно понимаю, что это не сложно реализовать.

dsd_corp 20 авг 2013 в 02:30

Это было наверное лет 15 назад, если не больше, где-то 94-97 годы или около того. Мы организовывали почтовый обмен данными для своей складской системы и предприятия по доставке медикаментов. Тогда онлайн-интернета толком еще не было, все работало на модемах и весь обмен происходил посредством UUCP в почтовых сообщениях.
Черт, я даже не помню, зачем нам понадобилось изобретать этот велосипед поверх base64 )))
Помню, реализовывали стандартные base64 и uuencode, а вот base128… наверное для самых хреновых каналов опцию эту делали — данных было много, и разница в оверхеде была существенной в итоге.
Так что вряд ли я найду вам исходники, уж простите. Но если вам так нужно, могу набросать заново. Это действительно не сложно: берем каждые 7 символов(56 бит), и преобразуем в восемь семибитных, далее табличная подстановка алфавита и паддинг до кратности(при чем не обязательно паддить именно до кратности).
Только алфавит свой придумаете, я уже не помню, какие именно диапазоны символов мы выбирали, кроме очевидных. Помню, что для совместимости с 7-битной кодировкой(уже в каком-то другом проекте) отдельно что-то мудрили, чтобы избавиться от паддинга — этот 129-й символ был явно лишним в кодировке, предполагающей всего 128 значений для байта.

dsd_corp 16 авг 2013 в 01:42

>> Base64… дает результат, который составляет только 130% от длины исходных данных.
Немного занудно, но поправьте: не 130, а 133.(3)% плюс оверхед от паддинга.
Наиболее точно: каждые три байта(8-битных) превращает в четыре байта(6-битных по словарю) и выравнивает в конце дополняющим символом (=) до количества байт, кратного четырем.
Как-то так.

Denxc 16 авг 2013 в 06:51

Всем спасибо за дельные комментарии!
Думаю, это редкий случай, когда статья в совокупности с обсуждением стала не плохим учебным материалом.

AndrewTishkin 16 ноя 2013 в 04:20

Тут ещё basE91 не поминали, тоже оригинальная схема кодирования, один раз баловался с ней:
base91.sourceforge.net

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Показать лучшие за всё время

ZBase32, Base32 и Base64 алгоритмы кодирования

Комментарии 26

Публикации

Истории