Comments 64
Исходник в .docx: здесь.
:)
:)
Забавно, что даже между разными *nix нет договоренности по поводу кодировки русских букв в zip:
Это скорее проблема реализации разных стандартов zip. Полноценная поддержка Unicode появилась там где-то с версии 6.1
Zip-архивы такого вида правильно распаковывает виндовый 7z, запущенный под wine. Не спрашивайте, как я это узнал.
PeaZip
kde-шный Ark тоже без проблемм работает с такими архивами;)
Виндовый 7z, запущенный под wine, делает очень простую штуку — выбирает OEM-кодировку для архива по системной локали. Но для этого не нужен целый вайн. Вот табличка, вытащенная прямо из его исходников:
github.com/unxed/oemcp/blob/master/oemcp.txt
А вот скрипт, показывающий, как правильно пользоваться этой табличкой, если вы — автор [раз]архиватора:
github.com/unxed/oemcp/blob/master/ziplist
А вот патчик к p7zip, реализующий эту логику, который не хотят принимать в Дебиан пока, увы:
bugs.debian.org/cgi-bin/bugreport.cgi?bug=965126
А вот .deb с p7zip, собранным с этим патчиком, для тех, кто задолбался ждать, пока его примут в Дебиан (amd64):
github.com/unxed/oemcp/blob/master/p7zip-oemcp.deb
github.com/unxed/oemcp/blob/master/oemcp.txt
А вот скрипт, показывающий, как правильно пользоваться этой табличкой, если вы — автор [раз]архиватора:
github.com/unxed/oemcp/blob/master/ziplist
А вот патчик к p7zip, реализующий эту логику, который не хотят принимать в Дебиан пока, увы:
bugs.debian.org/cgi-bin/bugreport.cgi?bug=965126
А вот .deb с p7zip, собранным с этим патчиком, для тех, кто задолбался ждать, пока его примут в Дебиан (amd64):
github.com/unxed/oemcp/blob/master/p7zip-oemcp.deb
local/unzip-natspec 6.0-1
Unpacks .zip archives with non-latin filenames, using libnatspec patch from AltLinux.
Unpacks .zip archives with non-latin filenames, using libnatspec patch from AltLinux.
Если это скриншот из Ubuntu, можно подключить PPA с пропатченными пакетами.
Может кто не знает, оставлю ссылку на декодер от Лебедева.
Или просто www.artlebedev.ru/tools/decoder/ :)
Теперь буду обновлять…
Кстати, недавно обнаружил в нем неприятную особенность. Когда прогонял через него html-страницы, то заметил, что он к ним добавляет свои секции скриптов и разметки. Был неприятно удивлен.
Ну, есть аналоги, тысячи их
Ага. Вот, например, некий Petko Yotov из Франции сделал аналог (для кириллицы).
Штирлиц вам поможет.
В печать и на стену.
«Вперемешку P и C» — это UTF-8 -> Win1251
Спасибо. Наказал вас по всей строгости закона (+ в карму, пост, в избранное, даже распечатал схему).
П.С. Это был я, тот загадочный пользователь, который написал просьб.
П.С. Это был я, тот загадочный пользователь, который написал просьб.
�믮������ ������� ������ ��� � ࠧ�襭�� ����������ᨬ��⥩ ����� ��ꥪ⠬�…
Jenkins рисует такое… когда есть время, пытаюсь найти цепочку кодировок:) пока безуспешно.
Это русский текст? Можно прибегнуть к криптоанализу :)
Извините, это не байткод случаем? Тоже пару раз открыл .class файл в текстовом редакторе :)
Google Translate:
襭 — Carry with the front of a robe
襭 — Carry with the front of a robe
UFO just landed and posted this here
UFO just landed and posted this here
Это-то ладно, фигня. Какой-нибудь enconv довольно сносно справляется. Вот когда два раза перекодировано — вот это ребус.
бНОПНЯ
меня всерьез начинает бесит ограничение только на один плюс в карму одному и тому же автору
Труд эпохальный.
Бывает, что по каким-то причинам было применено несколько последовательных конверсий. Например, где-то тупой конвертер неправильно распознал входную кодировку и применил свое преобразование. Тогда, чтобы восстановить сообщение, нужно вначале применить преобразование обратное неправильному, а потом правильное.
А если этих ошибочных преобразований было применено несколько… Тогда диаграмма должна распухнуть экспоненциально по их числу.
А если этих ошибочных преобразований было применено несколько… Тогда диаграмма должна распухнуть экспоненциально по их числу.
UFO just landed and posted this here
Вы правы, декодер говорит UTF8 -> iso8859-1
¶g^ЛЅVa6$•§Ј
єКВ`ЊЛе,°тV–еrй«тЦ є
Euд§юдЧT QЬКЌЋЛ^nЯM‰'Ю "‰Ћ–qпј l”{
ЂЮё‹+'JыP©ьЌrбuЄ”еюм°љ»Ў¦Р®ТйЬэ“ЪЧ8!mm
К!Ь6„ќn7E.$°љR0ЇЈbс`–Љvb<п«FQ©’ЏЃxђИDыo©жBЩэ:Љyir2ѕ‘¦ыkl,
ћчХ`О¬ ,U_HзџewћЏL°ќH$ Ў†,oB±Е95:i|®R4Bпo8‹ћ)O#lЮ)TSХj¶ПBЏNvB|/xhҐг–м&¤$^+›цkhєАК$А“э)uf‰±9RAж“)7Оqeжг1Ѓѕ<>
2ѓњЉ Ї§#餓jу
Помогите пожалуйста разобрать, никак не могу. Или это уже не возможно?
А как же двойные перекодировки?
Не хватает Win-1251 → UTF-8. Сегодня столкнулся с такой проблемой.
Русские символы отображаются всегда так: ����� ��� ����� �� �������
Русские символы отображаются всегда так: ����� ��� ����� �� �������
Википи**ры удалили статью «Кракозябры» в Wikipedia.
Столкнулся с неверными кодировками в своём проекте, хотел по быстрому взглянуть в чём проблема (была там удобнейшая таблица)… А теперь шиш… пичалька…
Столкнулся с неверными кодировками в своём проекте, хотел по быстрому взглянуть в чём проблема (была там удобнейшая таблица)… А теперь шиш… пичалька…
Автор, пожалуйста, перевыложите картинку с кодировками!
Вы про *.zip архив или про саму картинку в статье?
Про саму картинку и исходник
Исходника, к сожалению, нет, а картинка вот:
Черт, забыл про вэбархив. Выципил ее из этого топика (просто сохранил страницу), т.к. она у меня почему-то отображается.
Да, с самом посте у меня тоже есть картинка. habrastorage ее не потерял.
Выложил у себы в гуглодоках, для большей надёжности:
drive.google.com/file/d/0B_9_8BPuiLXtdUwzUVE2VkczZTQ/edit?usp=sharing (полноразмерная)
drive.google.com/file/d/0B_9_8BPuiLXtdUwzUVE2VkczZTQ/edit?usp=sharing (полноразмерная)
Sign up to leave a comment.
Как распознать кракозябры?