soulburner Jul 15 2012 at 16:36

Как распознать кракозябры?

1 min

442K

Typography *

+406

Comments 65

ploop Jul 15 2012 at 16:47

Исходник в .docx: здесь.

youROCK Jul 15 2012 at 17:48

Забавно, что даже между разными *nix нет договоренности по поводу кодировки русских букв в zip:

StShadow Jul 15 2012 at 17:55

Это скорее проблема реализации разных стандартов zip. Полноценная поддержка Unicode появилась там где-то с версии 6.1

Power Jul 15 2012 at 19:01

Zip-архивы такого вида правильно распаковывает виндовый 7z, запущенный под wine. Не спрашивайте, как я это узнал.

Frosty Jul 15 2012 at 22:03

PeaZip

Stvad Jul 17 2012 at 07:35

kde-шный Ark тоже без проблемм работает с такими архивами;)

unxed Oct 21 2020 at 03:49

far2l это умеет. Это потребовало некоторых усилий, но да, у нас получилось. В хабростатье по ссылке есть подробности.

unxed Oct 21 2020 at 03:52

Виндовый 7z, запущенный под wine, делает очень простую штуку — выбирает OEM-кодировку для архива по системной локали. Но для этого не нужен целый вайн. Вот табличка, вытащенная прямо из его исходников:
github.com/unxed/oemcp/blob/master/oemcp.txt
А вот скрипт, показывающий, как правильно пользоваться этой табличкой, если вы — автор [раз]архиватора:
github.com/unxed/oemcp/blob/master/ziplist
А вот патчик к p7zip, реализующий эту логику, который не хотят принимать в Дебиан пока, увы:
bugs.debian.org/cgi-bin/bugreport.cgi?bug=965126
А вот .deb с p7zip, собранным с этим патчиком, для тех, кто задолбался ждать, пока его примут в Дебиан (amd64):
github.com/unxed/oemcp/blob/master/p7zip-oemcp.deb

pfg21 Mar 27 at 07:53

продублирую здесь, авось кому поможет.

погуглил таки. добавили в 2006 году
https://pkwaredownloads.blob.core.windows.net/pkware-general/Documentation/APPNOTE-6.3.0.TXT

If general purpose bit 11 is unset, the file name and comment should conform to the original ZIP character encoding. If general purpose bit 11 is set, the filename and comment must support The Unicode Standard, Version 4.1.0 or greater using the character encoding form defined by the UTF-8 storage specification. The Unicode Standard is published by the The Unicode Consortium (www.unicode.org). UTF-8 encoded data stored within ZIP files is expected to not include a byte order mark (BOM).

и оказывается что кодировка должна быть cp437, но в действительности бралась та что имелась, уп-с…

Versions of the format prior to 6.3.0 did not support storing file names in Unicode. According to the standard, file names should be stored in the CP437 encoding, which is standard for the IBM PC, but in practice, DOS archivers used the system’s installed character encoding.

ValdikSS Jul 16 2012 at 03:18

local/unzip-natspec 6.0-1
Unpacks .zip archives with non-latin filenames, using libnatspec patch from AltLinux.

UFO landed and left these words here

drakulavich Jul 16 2012 at 13:00

Если это скриншот из Ubuntu, можно подключить PPA с пропатченными пакетами.

ploop Jul 16 2012 at 14:22

Да, это Ubuntu, и про решение я знаю. Ставил систему недавно (на днях), в связи с уходящим на покой жёстким диском, так что полностью еще не настроил. Просто совпало так — открыл ссылку, и тут имя файла прямо в тему :)

Nickel3000 Jul 15 2012 at 16:47

Может кто не знает, оставлю ссылку на декодер от Лебедева.

xbreaker Jul 15 2012 at 19:40

Мне еще нравится этот декодер

tyderh Jul 15 2012 at 16:49

Или просто www.artlebedev.ru/tools/decoder/ :)

tyderh Jul 15 2012 at 16:49

Теперь буду обновлять…

Smi1e Jul 15 2012 at 17:02

Кстати, недавно обнаружил в нем неприятную особенность. Когда прогонял через него html-страницы, то заметил, что он к ним добавляет свои секции скриптов и разметки. Был неприятно удивлен.

tyderh Jul 15 2012 at 17:15

Ну, есть аналоги, тысячи их

inscriptor Jul 15 2012 at 18:29

Ага. Вот, например, некий Petko Yotov из Франции сделал аналог (для кириллицы).

mukizu Jul 15 2012 at 16:55

Штирлиц вам поможет.

StShadow Jul 15 2012 at 17:55

Не спортивно

vadimus Jul 15 2012 at 16:59

В печать и на стену.

linuxoid Jul 15 2012 at 17:04

«Вперемешку P и C» — это UTF-8 -> Win1251

BoShurik Jul 15 2012 at 17:06

Аналогично
CP866 -> Win1252 = UTF-8 -> Win1252

soulburner Jul 15 2012 at 17:10

Да, извиняюсь, ошибся.

Спасибо. Fixed.

namespace Jul 15 2012 at 17:06

Спасибо. Наказал вас по всей строгости закона (+ в карму, пост, в избранное, даже распечатал схему).

П.С. Это был я, тот загадочный пользователь, который написал просьб.

acerv Jul 15 2012 at 17:35

�믮�� ஥�� ஥�� ࠧ�襭�� ᨬ��⥩ �� ꥪ⠬�…

Jenkins рисует такое… когда есть время, пытаюсь найти цепочку кодировок:) пока безуспешно.

tyderh Jul 15 2012 at 17:50

Это русский текст? Можно прибегнуть к криптоанализу :)

acerv Jul 15 2012 at 18:32

Да, русский. Как я понял, что-то из cp866 консоли, перегнанное джавой (куда?) судя по настройкам в UTF-8:)

krovatti Jul 15 2012 at 20:43

Извините, это не байткод случаем? Тоже пару раз открыл .class файл в текстовом редакторе :)

acerv Jul 16 2012 at 09:37

Нет, это какое-то сообщение на русском из cmd команды для msbuld-а:)

krovatti Jul 18 2012 at 09:53

Просто очень похоже. Открывал классы скомпилированные в текстовом редакторе и такие же крякозябры былию Один в один. :)

necrofess Jul 17 2012 at 17:21

Google Translate:
襭 — Carry with the front of a robe

Azy Jul 15 2012 at 17:47

UFO landed and left these words here

braintorch Jul 15 2012 at 20:00

Это-то ладно, фигня. Какой-нибудь enconv довольно сносно справляется. Вот когда два раза перекодировано — вот это ребус.

padlyuck Jul 15 2012 at 22:32

попробуйте enca

braintorch Jul 15 2012 at 23:31

enca и encov — это одно и то же. enconv это просто алиас для вызова enca с опцией конвертации, без которой он просто определяет кодировку файла.

OlegTar Jul 16 2012 at 15:16

может попробовать частотный анализ?

Vokabre Jul 16 2012 at 01:30

бНОПНЯ

destym Jul 16 2012 at 10:30

CyrruS Jul 16 2012 at 07:17

меня всерьез начинает бесит ограничение только на один плюс в карму одному и тому же автору

gasyoun Jul 16 2012 at 11:46

Труд эпохальный.

OlegTar Jul 16 2012 at 15:14

не такой уж эпохальный, в вики есть статья

OlegTar Jul 24 2012 at 20:24

вы минуснули?

janatem Jul 16 2012 at 14:31

Бывает, что по каким-то причинам было применено несколько последовательных конверсий. Например, где-то тупой конвертер неправильно распознал входную кодировку и применил свое преобразование. Тогда, чтобы восстановить сообщение, нужно вначале применить преобразование обратное неправильному, а потом правильное.

А если этих ошибочных преобразований было применено несколько… Тогда диаграмма должна распухнуть экспоненциально по их числу.

EndUser Jul 16 2012 at 15:38

На это есть TCode.exe и Shtirlitz.exe
До трёх перекодировок в разумное время вытягивают. Пять перекодировок уже обычно нереально, потому, что наверняка куча битов посыпалась и восстановить невозможно в принципе.

UFO landed and left these words here

spiritedflow Jul 16 2012 at 16:33

Вы правы, декодер говорит UTF8 -> iso8859-1

dr56 Jul 17 2012 at 09:57

¶g^ЛЅVa6$•§Ј

єКВ`ЊЛе,°тV–еrй«тЦ є
Euд§юдЧT	QЬКЌЋЛ^nЯM‰'Ю "‰Ћ–qпј l”{
ЂЮё‹+'JыP©ьЌrбuЄ”еюм°љ»Ў¦Р®ТйЬэ“ЪЧ8!mm
К!Ь6„ќn7E.$°љR0ЇЈbс`–Љvb<п«FQ©’ЏЃxђИDыo©жBЩэ:Љyir2ѕ‘¦ыkl,
ћчХ`О¬	,U_HзџewћЏL°ќH$	Ў†,oB±Е95:i|®R4Bпo8‹ћ)O#lЮ)TSХj¶ПBЏNvB|/xhҐг–м&¤$^+›цkhєАК$А“э)uf‰±9RAж“)7Оqeжг1Ѓѕ<>
2ѓњЉ Ї§#й¤“jу

Помогите пожалуйста разобрать, никак не могу. Или это уже не возможно?

m03r Aug 5 2012 at 17:30

похоже, что это бинарник

Woodroof Jul 17 2012 at 12:56

А как же двойные перекодировки?

IbrahimKZ Aug 15 2012 at 12:50

Не хватает Win-1251 → UTF-8. Сегодня столкнулся с такой проблемой.

Русские символы отображаются всегда так: ��

valemak Mar 23 2014 at 17:06

Википи**ры удалили статью «Кракозябры» в Wikipedia.

Столкнулся с неверными кодировками в своём проекте, хотел по быстрому взглянуть в чём проблема (была там удобнейшая таблица)… А теперь шиш… пичалька…