Шифр Copiale Cipher XVIII в. расшифрован с помощью статистического машинного перевода

http://www.nytimes.com/2011/10/25/science/25code.html
  • Перевод
Более 60 лет назад Уоррен Уивер, пионер в области машинного перевода, впервые предложил применить технику криптоанализа для интерпретации иноязычных текстов.

В известном письме 1947 года к математику Норберту Винеру он писал: «Вполне естественно задаться вопросом, можно ли проблему перевода рассматривать как проблему криптографии. Когда я вижу текст на русском языке, я говорю: «На самом деле это написано на английском, но закодировано какими-то странными символами. Сейчас попробую расшифровать»».

Эта догадка привела в итоге к разработке целого поколения программ статистического машинного перевода, таких как Google Translate — и, неслучайно, к появлению новых инструментов для анализа исторических шифров».

Сейчас группа шведских и американских лингвистов применила техники статистического машинного перевода для взлома одного из самых трудных шифров: Copiale Cipher, рукописного 105-страничного манускрипта конца XVIII века. Учёные опубликовали свою работу в преддверии конференции Ассоциации компьютерной лингвистики в Портленде.



Обнаруженный среди научных архивов Восточной Германии, том в искусном переплёте из золота и зелёной парчи содержит 75000 символов текста, в непонятном сочетании таинственных символов и латинского шрифта. Название манускрипта Copiale Cipher присвоено по одной из всего лишь двух незашифрованных надписей, которые присутствуют в документе.

Кевин Найт (Kevin Knight), специалист из Института информационных наук в Университете Южной Калифорнии, совместно с коллегами Беата Медьяши (Beáta Megyesi) и Кристианой Шефер из Уппсальского университета (Швеция) сумели дешифровать первые 16 страниц. На них содержится подробное описание ритуала тайного общества, которое интересовалось глазной хирургией и офтальмологией.


Первая страница манускрипта


Вторая и третья страницы манускрипта

Работа началась в этом году как хобби на выходные, сказал д-р Найт во время интервью и добавил: «У меня нет особого опыта в криптографии. Мои занятия связаны, главным образом, с компьютерной лингвистикой и машинным переводом».

Не зная языка оригинала, исследователи сделали несколько слепых предположений, прежде чем начали проверять свои догадки. Во-первых, они предположили, что вся информация содержится только в латинских символах ( на иллюстрации), то есть попробовали просто игнорировать абстрактные символы. Они взяли латинские символы и проверили текст на 80 языках мира.

Когда этот подход провалился, учёные обнаружили, что текст на самом деле создан шифром подстановки — таким шифром, при котором каждый символ оригинала заменяется на другой символ. И они предположили, что языком оригинала является немецкий, поскольку манускрипт нашли в Германии.

В конце концов, они пришли к выводу, что латинские символы на самом деле являются так называемыми «пустыми значениями», которые призваны ввести в заблуждение дешифровщика, и что некоторые особые символы обозначают пробелы между словами. Вторым прорывом стало открытие, что двоеточие означает удвоение предыдущего согласного.

После этого исследователи использовали известные техники машинного перевода, как анализ ожидаемой частотности символов, чтобы предположить, какие символы являются эквивалентом букв немецкого алфавита. Первым делом они вычислили, какое сочетание символов соответствует часто встречающемуся в немецком языке сочетанию ch.



Когда это выяснилось, частотный анализ подсказал, какой символ соответствует букве t, которая в немецком языке чаще всего следует за сочетанием ch. И так далее, шаг за шагом, были подобраны все остальные символы. Учёным не удалось расшифровать только большие символы (), которые, вероятно, являются кодовыми обозначениями засекреченных имён и организаций.



«Оказалось, что для криптоанализа мы можем применить многие лингвистические методы», — говорит д-р Найт.

Результат высоко оценили другие эксперты: «Расшифровка Copiale Cipher является изящной работой Кевина Найта и его коллег», — сказал Ник Пеллинг (Nick Pelling), британский разработчик ПО и специалист по безопасности, который ведёт блог Cipher Mysteries, посвящённый новостям в области криптографии.

Но хотя этот шифр стал заметным успехом, д-р Найт и его коллеги не могут почивать на лаврах. Они с разочарованием говорят, что до сих пор остались нерасшифрованными много древних книг и целых языков, которые представляют собой большую историческую ценность.

Copiale Cipher интересен разве что историкам, которые изучают распространение политических идей. Тайные общества были в моде в XVIII в., говорит д-р Найт, и они в определённой степени повлияли на события Великой Французской революции и войны за независимость США. Недавно Кевин Найт отправил расшифрованный текст Copiale Андреасу Оннерфорсу (Andreas Onnerfors), историку из Лендского университета (Швеция), эксперту по тайным обществам.

«Когда он увидел книгу и расшифрованную версию, он был чрезвычайно взволнован, — говорит д-р Найт. — Он обнаружил политический комментарий в конце текста, где говорилось о неотъемлемых правах человека. Это довольно интересно, что такие вещи обнаружены в столь раннем документе».

Последние примеры до сих не раскрытых шифров — письма серийного убийцы по прозвищу Зодиак, отправленные в полицию Калифорнии в 1960-е и 1970-е годы и скульптура Kryptos с зашифрованным текстом, расположенная перед центральным офисом ЦРУ в Лэнгли, текст на которой только частично расшифрован.

Но самой главной загадкой для криптографического сообщества, настоящей «Чашей Грааля» криптографического мира, остаётся рукопись Войнича — таинственная книга, написанная около 600 лет назад неизвестным автором на неизвестном языке с использованием неизвестного алфавита. Она состоит из 240 богато иллюстрированных страниц с текстом, который бросает вызов лучшим криптографам мира. Долгое время специалисты считали это розыгрышем, но недавно проведённый радиоуглеродный анализ подтвердил, что документ создан в начале XV в.

Совместно с коллегой из Чикагского университета, д-р Найт в этом году опубликовал подробный анализ рукописи, в котором не даёт ответа на вопрос о мистификации, но приводит свидетельства того, что рукопись Войнича содержит некоторые структуры естественного языка.

«Это самая таинственная рукопись в мире, — говорит Кевин Найт. — Она битком набита паттернами, и тот, кто создал подобную вещь, потратил на неё огромное количество времени. Так что мне кажется, что это, вероятно, шифр».
Поделиться публикацией

Похожие публикации

Комментарии 38
    0
    >Beata Megyesi
    Кодирование чуть подкачало.
    На самом деле она Беата Медьяши…
      +1
      Фамилия венгерская, правильно будет Медьеши.
      +4
      Может, про НЛО что написано.
        +5
        Не очень понятно из статьи, что именно трудного было в шифре, который является вариацией шифра с подстановкой — одного из самых лёгких и описанных в литературной форме ещё у Конан-Дойля («пляшущие человечки»).
          +12
          После расшифровки все шифры лёгкие.
            +1
            Одним из первых заданий на Криптологии в университете была расшифровка текста, зашифрованным подстановкой символов. Причем входной ключ (алфавит) был совершенно произвольным. Метод расшифровки таких шифров — частотный анализ (подсчет количества тех или иных символов) и сопоставление его с таблицей частот, получаемой анализом произвольных русских текстов. Конечно, знание языка исходного текста является большим плюсом, но отсутствие этих данных не слишком то большая проблема для профессиональных криптоаналитиков. А здесь, очевидно, что язык, наиболее вероятно, — немецкий. Так же, исходя из вашей статьи, одним символом кодировались несколько букв. Эту неприятность можно решить экспериментами с подстановкой. Говоря кратко, здесь дело не в сложности, а в количестве времени, которое требуется для расшифровки.
            +1
            Я так, бывало, даже письма в неправильной кодировке «расшифровывал» (чисто из спортивноuо инереса) :)
              +4
              спортивноuо бЇ®аўЁВ­л? :)
                0
                я СБЮФЕМХЕЛ.
                0
                Я так недавно кривой дамп базы расшифровал. Что-то его даже штирлицеподобные программы не брали, может быть потому, что там была хитрая подстановка — с переменной длинной символов.
                +3
                Было даже раньше, в «Золотом жуке», Эдгара По.
                  0
                  Ага, в детстве после прочтения Плящущих человечков, любимым развлечением была шифрованная переписка с родней. Сколько радости доставляло определение каждой последующей буквы частотным методом)
                    0
                    самые стойкие криптоалгоритмы используют медицинские работники. что они там пишут в медкартах сам черт ногу сломит
                  0
                  Спасибо за статью. Написано довольно увлекательно для меня, как человека далекого от криптографии. Было интересно почитать как саму статью, а потом еще и погуглить на эту тему.
                    +1
                      0
                      Три из четырех криптограмм остаются нерасшифрованными. © Wikipedia
                        0
                        Что-то я по ссылке не нашел подтверждения.
                        +1
                        Это автор расшифровки так заявляет. Однако:
                        1) Если почитать подробности, то рассуждения выглядят… эээ… неочевидно: в тексте 340 символов; 3+4+0=7; 7+0=7; 707 — административный код для Vallejo, Napa, и Solano (где были убийства). Поэтому он использовал 3 и 4 как ключи к шифру. Лично я логики здесь не вижу.
                        2) По заявлению автора, через несколько строк код сменился, но он смог найти нешаблонные последовательности.
                        3) Автор расшифровки отправил своё решение криптоаналитику, который ответил что оно «выглядит неправильным» («He even sent the code to a cryptographer, who, after looking over the solution, said that it appeared “not valid,” according to Starliper.»)
                        4) Я нигде не нашёл полного описания решения, так что составить своё мнение невозможно, остаётся положиться на мнение эксперта (см. выше).
                          0
                          Но первое письмо было расшифровано тем же методом.
                        –8
                        На тему рукописи Войнича artemdragunov.livejournal.com/909918.html?page=2
                          +9
                          Зачем такой бред здесь оставлять?
                          +2
                          >Долгое время специалисты считали это розыгрышем, но недавно проведённый радиоуглеродный анализ подтвердил, что документ создан в начале XV в.

                          А почему это не может быть розыграшем, сделаным в начале 15 века?
                            0
                            Может, всегда исходят из того, что это может быть подделка. И на первых этапах пытаются отсеять такой мусор.
                              0
                              В 15м веке у людей еще не было чувства юмора ;) Ну как дети до 4х лет не умеют врать.
                                +1
                                Весьма дорогой розыгрыш для тех времен.
                                  0
                                  Радиоуглеродный анализ мог показать, что текст написан на бумаге 15 века, не более того.
                                  0
                                  Вспомнилось тут «этрусское не читается» :) Официальная точка зрения «Все попытки прочесть этрусские надписи на основе какого-либо из известных языков не имели успеха; преобладает точка зрения, согласно которой этрусский язык не родственен известным европейским языкам и является изолированным». Притом, что куча народу утверждает, что читает этрусское по-русски :)

                                  Может и для рукописи Войнича найдется читатель, который не знает, что это нечитаемый шифр :)
                                    +2
                                    >> «Все попытки прочесть этрусские надписи на основе какого-либо из известных языков не имели успеха»

                                    А потом нашлись параллельные тексты на 3-х языках:
                                    ru.wikipedia.org/wiki/Скрижали_из_Пирги

                                    и кое-что по грамматике/лексике прояснилось.

                                    Таки да, не родственен он индоевропейским языкам, так же, как баскский, грузинский и т.д.

                                    >> Притом, что куча народу утверждает, что читает этрусское по-русски

                                    Этот же народ всё читает по-русски, т.к. не знает других языков — видел «расшифровку» греческих и еврейских текстов на основе русского. Это ближе к диагнозу.
                                    +5
                                    я не могу коментировать…
                                      +1
                                      Ой извините, у меня на работе не получалось оставить комментарий.
                                      А по теме:
                                      Так и не понял, а какие «лингвистические» методы использовались? Единственное, что увидел это: «анализ ожидаемой частотности символов», но по сути самым главным методом был «палец в небо», который указал, что язык является немецким. Зная это, и то, что символы были просто заменены, понятно, что можно было искать соответствия по длине слов, к примеру.
                                      Или вот, еще встречается фраза «были подобраны остальные символы». Т.е методом скорректированного брутфорса букв (типа, после буквы «а» не может идти буквы «б», или во всех немецких словах, соответствующих по длине исходному слову не встречаются буквы [б, ц]), они анализировали фразы или предложения и скажем, некий метод вычислял есть ли в этой фразе смысл (ну, после существительного идет глагол итд). Фигня, самое интересное не рассказано.
                                      0
                                      «Оказалось, что для криптоанализа мы можем применить многие лингвистические методы», — говорит д-р Найт.
                                      Надо же, какое озарение! А до них, наверное, частотный анализ никто не догадывался применять в криптографии?

                                      Ребята круты, но фраза больно странная.
                                        +2
                                        напомнило:

                                        Провизор из шестой городской аптеки с 20-летним стажем, находясь на отдыхе в Иране, во время экскурсии случайно расшифровал клинопись 26 века до н. э.
                                          0
                                          о рукописи Войнича — Самая таинственная в мире книга может оказаться мистификацией и Загадка древней рукописи
                                          0
                                          Интересное чтиво.

                                          Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

                                          Самое читаемое