soulburner15 июл 2012 в 16:36

Как распознать кракозябры?

1 мин

442K

Типографика *

+406

Комментарии 65

ploop 15 июл 2012 в 16:47

Исходник в .docx: здесь.

youROCK 15 июл 2012 в 17:48

Забавно, что даже между разными *nix нет договоренности по поводу кодировки русских букв в zip:

StShadow 15 июл 2012 в 17:55

Это скорее проблема реализации разных стандартов zip. Полноценная поддержка Unicode появилась там где-то с версии 6.1

Power 15 июл 2012 в 19:01

Zip-архивы такого вида правильно распаковывает виндовый 7z, запущенный под wine. Не спрашивайте, как я это узнал.

Frosty 15 июл 2012 в 22:03

PeaZip

Stvad 17 июл 2012 в 07:35

kde-шный Ark тоже без проблемм работает с такими архивами;)

unxed 21 окт 2020 в 03:49

far2l это умеет. Это потребовало некоторых усилий, но да, у нас получилось. В хабростатье по ссылке есть подробности.

unxed 21 окт 2020 в 03:52

Виндовый 7z, запущенный под wine, делает очень простую штуку — выбирает OEM-кодировку для архива по системной локали. Но для этого не нужен целый вайн. Вот табличка, вытащенная прямо из его исходников:
github.com/unxed/oemcp/blob/master/oemcp.txt
А вот скрипт, показывающий, как правильно пользоваться этой табличкой, если вы — автор [раз]архиватора:
github.com/unxed/oemcp/blob/master/ziplist
А вот патчик к p7zip, реализующий эту логику, который не хотят принимать в Дебиан пока, увы:
bugs.debian.org/cgi-bin/bugreport.cgi?bug=965126
А вот .deb с p7zip, собранным с этим патчиком, для тех, кто задолбался ждать, пока его примут в Дебиан (amd64):
github.com/unxed/oemcp/blob/master/p7zip-oemcp.deb

pfg21 27 мар в 07:53

продублирую здесь, авось кому поможет.

погуглил таки. добавили в 2006 году
https://pkwaredownloads.blob.core.windows.net/pkware-general/Documentation/APPNOTE-6.3.0.TXT

If general purpose bit 11 is unset, the file name and comment should conform to the original ZIP character encoding. If general purpose bit 11 is set, the filename and comment must support The Unicode Standard, Version 4.1.0 or greater using the character encoding form defined by the UTF-8 storage specification. The Unicode Standard is published by the The Unicode Consortium (www.unicode.org). UTF-8 encoded data stored within ZIP files is expected to not include a byte order mark (BOM).

и оказывается что кодировка должна быть cp437, но в действительности бралась та что имелась, уп-с…

Versions of the format prior to 6.3.0 did not support storing file names in Unicode. According to the standard, file names should be stored in the CP437 encoding, which is standard for the IBM PC, but in practice, DOS archivers used the system’s installed character encoding.

ValdikSS 16 июл 2012 в 03:18

local/unzip-natspec 6.0-1
Unpacks .zip archives with non-latin filenames, using libnatspec patch from AltLinux.

НЛО прилетело и опубликовало эту надпись здесь

drakulavich 16 июл 2012 в 13:00

Если это скриншот из Ubuntu, можно подключить PPA с пропатченными пакетами.

ploop 16 июл 2012 в 14:22

Да, это Ubuntu, и про решение я знаю. Ставил систему недавно (на днях), в связи с уходящим на покой жёстким диском, так что полностью еще не настроил. Просто совпало так — открыл ссылку, и тут имя файла прямо в тему :)

Nickel3000 15 июл 2012 в 16:47

Может кто не знает, оставлю ссылку на декодер от Лебедева.

xbreaker 15 июл 2012 в 19:40

Мне еще нравится этот декодер

tyderh 15 июл 2012 в 16:49

Или просто www.artlebedev.ru/tools/decoder/ :)

tyderh 15 июл 2012 в 16:49

Теперь буду обновлять…

Smi1e 15 июл 2012 в 17:02

Кстати, недавно обнаружил в нем неприятную особенность. Когда прогонял через него html-страницы, то заметил, что он к ним добавляет свои секции скриптов и разметки. Был неприятно удивлен.

tyderh 15 июл 2012 в 17:15

Ну, есть аналоги, тысячи их

inscriptor 15 июл 2012 в 18:29

Ага. Вот, например, некий Petko Yotov из Франции сделал аналог (для кириллицы).

mukizu 15 июл 2012 в 16:55

Штирлиц вам поможет.

StShadow 15 июл 2012 в 17:55

Не спортивно

vadimus 15 июл 2012 в 16:59

В печать и на стену.

linuxoid 15 июл 2012 в 17:04

«Вперемешку P и C» — это UTF-8 -> Win1251

BoShurik 15 июл 2012 в 17:06

Аналогично
CP866 -> Win1252 = UTF-8 -> Win1252

soulburner 15 июл 2012 в 17:10

Да, извиняюсь, ошибся.

Спасибо. Fixed.

namespace 15 июл 2012 в 17:06

Спасибо. Наказал вас по всей строгости закона (+ в карму, пост, в избранное, даже распечатал схему).

П.С. Это был я, тот загадочный пользователь, который написал просьб.

acerv 15 июл 2012 в 17:35

�믮�� ஥�� ஥�� ࠧ�襭�� ᨬ��⥩ �� ꥪ⠬�…

Jenkins рисует такое… когда есть время, пытаюсь найти цепочку кодировок:) пока безуспешно.

tyderh 15 июл 2012 в 17:50

Это русский текст? Можно прибегнуть к криптоанализу :)

acerv 15 июл 2012 в 18:32

Да, русский. Как я понял, что-то из cp866 консоли, перегнанное джавой (куда?) судя по настройкам в UTF-8:)

krovatti 15 июл 2012 в 20:43

Извините, это не байткод случаем? Тоже пару раз открыл .class файл в текстовом редакторе :)

acerv 16 июл 2012 в 09:37

Нет, это какое-то сообщение на русском из cmd команды для msbuld-а:)

krovatti 18 июл 2012 в 09:53

Просто очень похоже. Открывал классы скомпилированные в текстовом редакторе и такие же крякозябры былию Один в один. :)

necrofess 17 июл 2012 в 17:21

Google Translate:
襭 — Carry with the front of a robe

Azy 15 июл 2012 в 17:47

НЛО прилетело и опубликовало эту надпись здесь

braintorch 15 июл 2012 в 20:00

Это-то ладно, фигня. Какой-нибудь enconv довольно сносно справляется. Вот когда два раза перекодировано — вот это ребус.

padlyuck 15 июл 2012 в 22:32

попробуйте enca

braintorch 15 июл 2012 в 23:31

enca и encov — это одно и то же. enconv это просто алиас для вызова enca с опцией конвертации, без которой он просто определяет кодировку файла.

OlegTar 16 июл 2012 в 15:16

может попробовать частотный анализ?

Vokabre 16 июл 2012 в 01:30

бНОПНЯ

destym 16 июл 2012 в 10:30

CyrruS 16 июл 2012 в 07:17

меня всерьез начинает бесит ограничение только на один плюс в карму одному и тому же автору

gasyoun 16 июл 2012 в 11:46

Труд эпохальный.

OlegTar 16 июл 2012 в 15:14

не такой уж эпохальный, в вики есть статья

OlegTar 24 июл 2012 в 20:24

вы минуснули?

janatem 16 июл 2012 в 14:31

Бывает, что по каким-то причинам было применено несколько последовательных конверсий. Например, где-то тупой конвертер неправильно распознал входную кодировку и применил свое преобразование. Тогда, чтобы восстановить сообщение, нужно вначале применить преобразование обратное неправильному, а потом правильное.

А если этих ошибочных преобразований было применено несколько… Тогда диаграмма должна распухнуть экспоненциально по их числу.

EndUser 16 июл 2012 в 15:38

На это есть TCode.exe и Shtirlitz.exe
До трёх перекодировок в разумное время вытягивают. Пять перекодировок уже обычно нереально, потому, что наверняка куча битов посыпалась и восстановить невозможно в принципе.

НЛО прилетело и опубликовало эту надпись здесь

spiritedflow 16 июл 2012 в 16:33

Вы правы, декодер говорит UTF8 -> iso8859-1

dr56 17 июл 2012 в 09:57

¶g^ЛЅVa6$•§Ј

єКВ`ЊЛе,°тV–еrй«тЦ є
Euд§юдЧT	QЬКЌЋЛ^nЯM‰'Ю "‰Ћ–qпј l”{
ЂЮё‹+'JыP©ьЌrбuЄ”еюм°љ»Ў¦Р®ТйЬэ“ЪЧ8!mm
К!Ь6„ќn7E.$°љR0ЇЈbс`–Љvb<п«FQ©’ЏЃxђИDыo©жBЩэ:Љyir2ѕ‘¦ыkl,
ћчХ`О¬	,U_HзџewћЏL°ќH$	Ў†,oB±Е95:i|®R4Bпo8‹ћ)O#lЮ)TSХj¶ПBЏNvB|/xhҐг–м&¤$^+›цkhєАК$А“э)uf‰±9RAж“)7Оqeжг1Ѓѕ<>
2ѓњЉ Ї§#й¤“jу

Помогите пожалуйста разобрать, никак не могу. Или это уже не возможно?

m03r 5 авг 2012 в 17:30

похоже, что это бинарник

Woodroof 17 июл 2012 в 12:56

А как же двойные перекодировки?

IbrahimKZ 15 авг 2012 в 12:50

Не хватает Win-1251 → UTF-8. Сегодня столкнулся с такой проблемой.

Русские символы отображаются всегда так: ��

valemak 23 мар 2014 в 17:06

Википи**ры удалили статью «Кракозябры» в Wikipedia.

Столкнулся с неверными кодировками в своём проекте, хотел по быстрому взглянуть в чём проблема (была там удобнейшая таблица)… А теперь шиш… пичалька…