Код Войнича: мнимый триумф искусственного интеллекта

    Сфера интересов сотрудников и преподавателей онлайн-школы английского языка EnglishDom намного шире, чем просто английский. Загадки лингвистики нам тоже интересны. Недавно в нашем офисе завязался спор про код Войнича, и мы решили сделать статью на эту тему.



    Манускрипт Войнича — одна из самых животрепещущих загадок лингвистики и криптографии, которая не решена и по сегодня. Вот уже 600 лет даже самые лучшие умы мира не могут приблизиться к разгадке этого таинственного текста.

    В 2016 году исследователи подключили к разгадке нейросеть. Результат был неожиданным — компьютер проанализировал текст и ошибся. Об этом читайте дальше.

    Манускрипт Войнича — это иллюстрированный рукописный кодекс, который написан на неизвестном языке или шифре.

    По результатам углеродного анализа, книга написана в первой половине XV века. 240 страниц пергамента покрыты странными письменами, которые внешне напоминают текст. Но сложность его расшифровки в том, что в книге используется неизвестный алфавит, который не соотносится ни с одним существующим или изученным существовавшим языком.

    Детальный анализ текста позволяет определить, что буквы подчиняются неким грамматическим правилам, но вот сами правила определить не удается. В тексте практически нет одно- и двухбуквенных слов, каких много в языках на основе латиницы, отдельные принципы написания слов отдаленно напоминают арабскую вязь или иврит. Отдельные слова вообще повторяются несколько раз подряд. В общем, структуру языка или шифра даже примерно определить нельзя — она слишком отличается от всех знакомых нам принципов формирования письменной речи.

    Единственное, что смогли определить эксперты-лингвисты за почти 600 лет — информационная энтропия кода примерно равна энтропии английского и латинского языков. Это значит, что текст совершенно точно не является набором случайных символов, а несет в себе определенный смысл.

    В теории это может быть даже зашифрованный английский, но как это узнать, если исследователи все еще не могут определить, сама рукопись — это шифр или просто какой-то странный язык?

    Даже при наличии ключа расшифровка принципов языка требует огромных усилий со стороны лингвистов. Расшифровка Розеттского камня заняла у исследователей 20 лет. И это при условии, что им был известен один из трех языков, на которых был написан текст на камне.

    Просто представьте, даже зная перевод древнегреческого текста, исследователям понадобилось больше двух десятилетий, чтобы расшифровать тот же текст, записанный иероглифическим письмом. Демотическое письмо расшифровали раньше, но поражает сам факт того, что имея ключ, суть языка разгадывали так долго.


    На рукописи Войнича есть также краткие отрывки текста, которые выбиваются из общего числа. Отдельные слова, написанные латиницей с комбинациями неизвестных символов.

    Тем не менее, эти надписи тоже либо зашифрованы, либо написаны по правилам неизвестного языка. Потому что перевести их невозможно. Во всяком случае, так считают исследователи.

    Теории насчет расшифровки рукописи Войнича


    За 600 лет исследователи наворотили целую кучу теорий происхождения языка и алфавита книги. Есть довольно странные, есть заслуживающие внимания.

    Большинство исследователей до XX века считало, что рукопись Войнича скрывает просто зашифрованный особым образом один из европейских языков.

    Но вот текст не соответствует шифрам, существовавшим в XV веке. Шифры подстановки, полиалфавитные, номенклаторы и гомофонические не подходят.

    Не исключается, что текст был зашифрован одним из вышеуказанных шифров, а потом усложнен с помощью ложных символов и пробелов или еще одного уровня шифрования, но эту гипотезу проверить крайне сложно — ведь в таком случае невозможно отследить, какие символы являются ложными, а какие — истинными.

    Вторая популярная гипотеза утверждает, что код Войнича — это банальный шифр по кодовой книге. То есть, отдельная комбинация символов — это отдельное слово на существующем языке. И действительно, форма рукописи позволяет предполагать, что в тексте есть вполне определенный смысл. Но вот подтвердить или опровергнуть эту гипотезу на сегодня невозможно — взломать такой шифр можно только с помощью словаря.

    Некоторые исследователи считают, что рукопись написана на реально существовавшем экзотическом языке с уникальным алфавитом. К примеру, на одном из восточных или американских диалектов. Отдельные стилистические особенности текста намекают на это, но доказательств этому все же недостаточно.

    Еще есть множество соображений: искусственно созданный уникальный язык, полиязычный зашифрованный текст, протоязык, который предшествовал всем языкам романской группы. Были даже мысли, что рукопись написана сумасшедшим и вообще не несет смысла. Также исследователи пытались доказать, что рукопись — мистификация, но радиоуглеродный анализ все же показывает, что книга действительно написана в XV веке.

    Ни одна из гипотез пока что не получила достаточных доказательств своей правоты. Поэтому код Войнича до сих пор не был разгадан.

    Нейросеть пытается взломать код Войнича


    Итак, после объемного и широкого вступления обратимся к сути статьи. В 2016 году Энигму от мира литературы попытались взломать с помощью нейросети. Да, именно в 2016 — СМИ узнали об этих попытках только в 2018, из-за этого даты часто путают. Вот ссылка на оригинальное исследование. Текст на английском, поэтому нужно хотя бы немного разбираться в научной терминологии.

    Канадские ученые «натренировали» нейросеть на распознание отдельных элементов алфавита и лексем из 380 существующих или ранее существовавших мировых языков. Как утверждали исследователи, точность анализа нейросети была в пределах 97%.

    Система показала, что наиболее вероятный язык рукописи — иврит. Конечно, не простой иврит, а с подвыподвертом. Исследователи предположили, что в книге есть довольно простой шифр, при котором знаки огласовок опускаются или шифруются с помощью других символов, а согласные размещаются в алфавитном или произвольном порядке.

    Стоит также уточнить, что система давала также и другие возможные исходники: мазатек (язык аборигенов современного юга Мексики), мозарабский (арабизированный язык Пиренейского полуострова), итальянский и язык ладино (язык евреев Пиренейского полуострова). Также нейросеть нашла элементы стандартного арабского и амхарского языка (территория современной Эфиопии, входит в семитскую группу).

    Такой подход вдруг дал результат и нейросеть смогла перевести часть текста книги. Первая фраза была переведена как:

    She made recommendations to the priest, man of the house and me and people.
    Она дала советы священнику, хозяину дома, мне и людям.

    Казалось бы, вот он, триумф искусственного интеллекта! На базе такой трактовки и иллюстраций исследователи даже сделали предположение, что рукопись Войнича была своеобразной фармакопеей — медицинской книгой, в которой описывалось целебное значение трав, способы изготовления и применения лекарственных препаратов, а также строение человеческого тела.

    Всего алгоритм «опознал» примерно 80% слов из всей рукописи. За основу анализа было взято то же самое предположение об отсутствии огласовок и произвольном порядке букв в словах.

    Но вот повторные проверки первой тестовой фразы показали другой результат:

    And the priest made a man for him to his house, and to his men.
    И священник сделал человека для него и для его дома, и его людей.

    Unleavened bread and made her the priest, and one which leaves his home.
    Пресный хлеб и сделал ее священником, и той, кто покидает его дом.

    Во фразах меньше смысла, чем в первоначальном варианте, но в теории это можно списать на несовершенство переводческих алгоритмов системы. В целом же лексические основы во всех вариантах перевода остались неизменными: «священник» и «дом».

    Можно было бы заявлять об успехе, но есть парочка серьезных «но», которые не делают результаты исследования сенсационными.

    Во-первых, настройки нейросети позволяли некую вольность в трактовке слов, ведь даже если учесть, что алфавит — это просто измененное начертание букв иврита, то существует довольно много вариантов слов, которые можно составить при перестановке букв.

    Если же предположить, что язык рукописи не иврит, а просто принадлежащий к семитской группе или же родственный с ней, то совершённый анализ не будет иметь смысла — становится слишком много вариантов для анализа даже тех символов, значение которых вроде как уже определили. А неизвестных — еще больше.

    В этой ситуации хочется вспомнить теорему о бесконечных обезьянах. Если кто не слышал, вот она:

    Допустим, что у нас есть бесконечное число обезьян с печатными машинками, каждая из которых произвольным образом стучит по клавишам неограниченного количества времени.

    Рано или поздно одна из обезьян сможет «настучать» любой произвольно заданный текст: будь то короткая записка или «Война и мир».

    Эту теорию можно применить в случае интерпретации текста нейросетью. Изначально сама нейросеть создает пул вариантов значения каждого из слова, а затем из всего пула вариантов выбирает наиболее возможные интерпретации, исходя из комбинаций с соседними вариантами.

    В результате в предложении из 5-8 предполагаемых слов получаем несколько десятков тысяч вариантов, из которых нейросеть выбирает один, который несет больше всего смысла.

    То есть, есть очень большая вероятность, что среди этих разрозненных вариантов случайно найдется один или несколько, которые реально будут иметь смысл. При этом если здесь есть более сложный шифр или иная лексическая структура предложений или слов, то способ оказывается ложно положительным.

    По факту какой-то результат есть, его можно «пощупать» и представить публике, но толку от него нет никакого, потому что он ни на шаг не приближает к реальной разгадке шифра.

    Да и объективно соединить начертание букв алфавита с ивритом — решение довольно необычное. Тем не менее, большинство исследователей рукописи сомневаются, что исходный язык рукописи — иврит. Лексическая структура довольно сильно не совпадает, а разобрать степень шифрования, если она есть, все еще не представляется возможным.

    Более того, некоторые считают, что лингвисты с нейросетью проводили не объективный анализ, а искали подтверждение отдельной теории. Гипотезу о том, что книга является фармакопеей, можно сделать, исходя из рисунков трав, людей и звездных тел, даже без анализа текста.

    В итоге результаты исследований не приняли в научном обществе. Потому что они не раскрывают конкретных особенностей и принципов языка, как требуется для полноценного лингвистического исследования наречий. Для того, чтобы результаты исследований признали, банально не хватает доказательной базы. Невозможно проследить четкую логическую цепочку, которой руководствовалась нейронная сеть во время анализа, поэтому результаты нельзя считать научно обоснованными — есть ненулевой шанс, что цепочка окажется ошибочной.

    Впрочем, адекватных гипотез насчет манускрипта Войнича больше не было.

    Лингвисты предпринимали попытки, но все они больше похожи на фарс. К примеру, в 2019 году один британский ученый заявил, что он разгадал код Войнича. Но теория о «протороманском языке» или вульгарной латыни была резко раскритикована учеными, которые обвинили британца в том, что он искусственно подбирал слова без определения принципов письма и без убедительных доводов о лексических связях между смыслами.

    Сейчас уже 2020 и шумиха вокруг «единственной и правильной расшифровки рукописи Войнича» утихла. Он все так же продолжает считаться одной из главных лингвистических и криптологических загадок современности.

    Хочется, конечно, верить в то, что когда-нибудь его все-таки разгадают. Если это какая-нибудь разновидность языка, то вполне возможно. Но если это все же шифр с утраченным ключом, то рукопись рискует навсегда остаться просто красивой древней книгой с таинственной историей.

    Вообще лингвистические загадки — это очень крутая тема. Кроссворды и филворды — это только верхушка айсберга — есть очень много способов одновременно учить английский и прокачивать логику и мышление. Преподаватели EnglishDom часто используют их на занятиях, чтобы разнообразить процесс обучения и сделать его более интересным.

    Онлайн-школа EnglishDom.com — вдохновляем выучить английский через технологии и человеческую заботу




    Только для читателей Хабра первый урок с преподавателем по Skype бесплатно! А при покупке занятий получите до 3 уроков в подарок!

    Получи целый месяц премиум-подписки на приложение ED Words в подарок.
    Введи промокод Voynich на этой странице или прямо в приложении ED Words. Промокод действителен до 30.01.2021.

    Наши продукты:

    Онлайн школа EnglishDom
    Лидер в онлайн образовании

    Комментарии 59

      +23
      Вроде и текст интересный, понравился, но столько рекламы вы насовали в пост, что впечатления от него тут же уходят в минус.
        +15
        Вот уже 600 лет
        Вот уже 100 лет. Первые 500 лет своего существования манускрипт пылился неизвестно где, и только после случайного обнаружения в начале 20-го века его начали пытаться расшифровать.
          +1
          Разброс даты создания рукописи — 1400-1600 гг. С 1600 г. владелец рукописи уже был известен и всё остальное время хронология её владения известна. Так что пылился манускрипт минимум 0 лет, максимум 200. С середины 17 века уже были попытки понять что там написано.
          +2
          Манускрипт не известного автора и не известного происхождения, с очень странными иллюстрациями.
          Почему просто не предположить что это качественная мистификация от душевно больного человека?
            +3
            Потому что исследования говорят, что в этих «буквах» есть определенная смысловая нагрузка — они не нарисованы как попало, а имеют четкие паттерны, часть из которых повторяется.
            Да и графологический анализ почерка говорит о том, что автор или переписчик знал смысл символов.
            Исключать эту версию полностью, конечно, нельзя, но есть и более вероятные.
              +1
              Да, там еще было исследование — что тот, кто писал — делал это на «автомате» (нажим, чернила и пр.), т.е. не выводил отдельные символы. Можно предположить, что где-то еще существуют подобные книги — т.к. у автора рука была «набита».
                +3
                Это конспект.
                Оригинал в Александрийской библиотеке, третий ряд направо, седьмая полка, двенадцатый том.
                  0
                  Тогда уж в «Вавилонской библиотеке»
                +1
                если у человека поехала префронтальная кора то он может писать «не как попало» и все равно будет на выходе некий, понятный только его/ее сломавшемумя фильтру, смысл.
                  +1
                  … говорят, что в этих «буквах» есть определенная смысловая нагрузка — они не нарисованы как попало, а имеют четкие паттерны, часть из которых повторяется.


                  «All work and no play makes Jack a dull boy» (с)
                  0
                  Сумасшествие — это как правило восприятие реальности под определённым углом. Так что то, что вы считаете болезнью души, кому-то смысл жизни.
                  Например, в рассказе Александра Шленского — Радиальная симметрия это ярко показано.
                  Так что даже если автор был одержим какой-то особой манией, создал собственный алфавит, язык, мир и смысл, то это нисколько не умаляет его гений. Загадку до сих пор не расшифровали.
                    0
                    поддерживаю мнение. не знаю сколько стоит перед лигнвистикой как наукой черенжей, но этот выглядит как приятное, но бесполезное занятие. Вроде установки нейронной сети на разбери пай зеро внутри докер контейнера…
                      0
                      Вроде установки нейронной сети на разбери пай зеро внутри докер контейнера…

                      Челенж принят. Смотрите на моем канале :-)
                        0
                        been there, done that. Не череленж вовсе, развлечение на вечер по сборке нужных версий пакетов для питона :)
                    0
                    Вероятно, исходят из предположения, что для того времени это было бы слишком затратно и бессмысленно.
                      0
                      Так наоборот же, именно раньше шифрование текстов считалось более осмысленным. Концепции доступности знаний не существовало, наоборот, знания считались чем-то тайным и предназначенным для избранных. В древности любили шифровать тексты.
                        0
                        При этом совершенно загадочно, что учёные не находят аналогов многих изображенных растений.
                    +1
                    А никто не допускает что манускрипт мог быть написан на искусственном языке?

                      0
                      Там достаточно ровный почерк, выглядит так, как пишешь обычно на знакомом языке. Буквы написаны, а не нарисованы. Нужно очень хорошо владеть этим искусственным языком, чтоб так писать. Но в этом нет ничего невозможно.
                        –1

                        Ну, бегло писать, переставляя согласные в алфавитном порядке, тоже не так просто. Но тут, я думаю, надо больше разбираться в положении вещей в те времена — могло кому-то тогда прийти в голову тратить время на создание бессмыслицы?

                      0
                      Сейчас подумал, что буквы местами похожи на тот язык, который придумал Толкиен, тенгвар он назывался, если мне память не изменяет, эльфийский язык.
                        0
                        Тенгвар это не язык, это письменность.
                          0
                          Языков он придумал несколько. Эльфийских тоже.
                          А символы, которые используются в эльфийских языках и тёмном наречие, — Руны Феанора.
                          +3
                          ОЧЕНЬ много рекламы.Это точно не Яндекс Дзен?
                            +6
                            Это точно не Яндекс Дзен?

                            Хуже — это корпоративный блог, который для этого в основном и ведётся.
                            0
                            Там ещё такая фишка была, что по рисункам растений пытались опознать примерную географию происхождения манускрипта, ну то есть изображены там растения характерные для Европы, Азии или Америк, и вот оказалось что для большей части даже не получается определить вид.
                              +2
                              И вот уже 600 лет манускрипт Войнича используется как мотиватор для изучения иностранных языков…
                              Не рассматривали еще гипотезу, что именно в этом и была цель его автора?
                                0
                                А нельзя было заполучить бумагу и чернила (некую темную жидкость, как вариант вино) 600-летней выдержки и т.о. сфабриковать артефакт?
                                  +1

                                  Чернила манускрипта — это не "некая жидкость" и не вино, а обычные железистые чернила. Предположим даже, что они могли бы сохраниться. Но вот мог ли фальсификатор в конце XIX — начале XX века (Войнич купил манускрипт в 1912 году) специально озаботиться приобретением материалов 500-летней давности на случай того, что в будущем станет возможным определить время их создания? Само собой, ни он, ни кто либо другой при этом не мог быть уверен в годах создания материалов и не мог на основе этого обнаружить подделку.

                                    0
                                    Такие чернила, возможно, ещё легче подделать.
                                      0
                                      Меегерен в первой половине XX в. дошёл до того, что покупал дешёвые полотна XVII века и рисовал на них подделки. Радиоуглеродный анализ появился только в 1946 г.
                                        0

                                        И вот в частности современные методы могут установить, что это подделка:


                                        С помощью рентгена было обнаружено, что трещинки-кракелюры, которых ван Мегерен добивался, поджаривая фальшивки в печке, не глубоки и получены искусственным путём

                                        Думаю, что и краски у Меегерена были современные, а не XVII века, то есть радиоуглеродный анализ тоже обнаружил бы фальсификацию. При этом у Манускрипта Войнича с материалами всё в порядке.

                                      0
                                      Может наоборот, артефакт сфабриковали в Средневековье, как тайную книгу знаний — чтоб пустить пыль в глаза каким-нить рыцарям.
                                        0
                                        типа Туринской плащаницы?
                                          0
                                          Ну да, вроде того. Только у плащаницы хотя бы цели подделки понятны, тк тема более популярная.
                                      +3
                                      And the priest made a man for him to his house, and to his men.
                                      И священник сделал человека для него и для его дома, и его людей.

                                      Unleavened bread and made her the priest, and one which leaves his home.
                                      Пресный хлеб и сделал ее священником, и той, кто покидает его дом.


                                      «Жил-был поп, толоконный лоб…
                                      пошел поп по базару....»

                                      Вот откуда Пушкин взял идею!
                                        +6
                                        Но это же очевидно.
                                          –2

                                          Зашёл сюда за этим комментарием.

                                          +1
                                          Вот помню еще в детстве я полюбил очень книги. И мне тогда очень хотелось писать свои.
                                          Только вот писать и читать я еще не умел, но большие портновские ножницы уже как-то освоил. Так я вырезал ножницами маленькую книжечку из чистой школьной тетрадки, в том месте где она скрепками скреплена. Две книжечки из одной тетрадки получалось, за что и попадало. И аккуратно заполнял отцовской чернильной ручкой эти книжечками разными символами и буквами, придуманными и реальными. Правда вот книги я «писал» «взрослые», поэтому рисунков там не было.
                                          Вот жду теперь, когда их найдут в дедовом сарае. Может даже и расшифровывать станут.
                                            +1
                                            Допустим… Имеется некий зашифрованный текст и предположение о том как его расшифровать. Так как содержание текста неизвестно и невозможно проверить является ли расшифрованный текст правильным, то почему бы не зашифровать известный текст по предполагаемому алгоритму/принципу и не проверить нейросеть на нём?
                                              0
                                              Вот об этом же подумал. Неужели метод не протестировали на известных текстах, прежде чем применять?
                                                +1
                                                В результате шифрования не получается ничего, даже близко похожего на манускрипт Войнича.

                                                И мне кажется, вы не совсем оценили сложность (даже рисунки растений из гербария опознать не могут — хотя казалось бы — что проще ;) ) этого манускрипта (почему-то названного автором статьи «кодом») — могу порекомендовать английскую вики для начала.
                                                0
                                                Интересная тема в целом. Ну а если взять предположение о том, что книга — обыкновенная фармакопея, почему бы тогда пришлось ее так тщательно шифровать?..
                                                  0
                                                  Автор не хотел делиться знаниями с другими. Книга для избранных из некого тайного общества фармакологов. Там могла быть целая библиотека, про остальные рукописи неизвестно из-за «тайности», они могли быть просто уничтожены вместе с обществом.
                                                    0
                                                    Я конечно лишь предположу, но мы все же говорим о годах, когда сжигали ведьм, а когда у человека большое желание к иследыванию, и при этом страх, что его из-за этих же иследований могут распять, то начинаешь понимать, что лучше шифровать свои письмена, что бы никто не смог понять, чем ты занимаешься, а когда время прийдет к концу, то просто передать знания своим ученикам.
                                                      0
                                                      что лучше шифровать свои письмена, что бы никто не смог понять, чем ты занимаешься

                                                      Сдаётся мне, что если бы к нему пришли — то с ректальным криптоанализатором — в те времена шифры ломались именно так, наверное потому, что вычислительные мощности были в дефиците.
                                                        –1
                                                        Сдаётся мне, что если бы к нему пришли — то с ректальным криптоанализатором
                                                        В том то и дело, если бы пришли, дяди в черном к тебе не приедут, если будешь писать на нежелательные темы, но вот если соседи это заметят, и доложат куда надо, тогда уже другой вопрос, скорее всего, шифровалось исключительно что бы соседи не понимали что ты делаешь, а взглянув на писмена сразу же подумали бы о шизофрении, или еще что нибудь, хотя я могу в этом ошибаться, помню слышал о да Винчи, что он так же начал шифровать свои иследования, когда его чуть не казнили из-за них.
                                                        +2

                                                        Кажется, наоборот: книги с непонятными письменами дают лишний повод инквизиторам усомниться в благочестивости и добропорядочности их автора или владельца. Другое дело, если бы это была стеганография на основе Библии или житий святых.

                                                          0
                                                          Предположу что лишь единицы могли читать, инквизиция, скорее всего, не смогла бы даже отличить одино письменство, от другово, а люди, которые бы могли читать, попросто могли подумать что это другой язык, или еще что нибудь, кстате как вариант, рисунки могут указывать не на растения, а на что то другое, а рисунки растений, это лишь еще один шифр.
                                                            +2
                                                            Предположу что лишь единицы могли читать, инквизиция, скорее всего, не смогла бы даже отличить одино письменство, от другово

                                                            Ну да, ну да. Вы не учитываете, что большинство образованных (умеющих читать и писать) людей в средние века было как раз таки среди духовенства.
                                                              –1
                                                              Ну да, ну да. Вы не учитываете, что большинство образованных (умеющих читать и писать) людей в средние века было как раз таки среди духовенства.
                                                              С этим спорить не буду, меня тогда не было.
                                                      +1
                                                      Вспомнились картинки, где нейросеть, натренированная на изображениях собак, потом собакизировала произвольные изображения. Думаю, тут исследователи столкнулись с таким же эффектом, только в лингвистической области.
                                                        0
                                                        Сделал нейросеть — попробуй её на этом датасете!
                                                        0
                                                        И хорошо, что не получилось. В каждой науке должна быть «чёрная дыра», об которую все ломают зубы. Очень стимулирует и заставляет напрягаться. А потом какой нибудь гений, типа Перельмана, взломает стену и лишит энтузиастов такого ценного " тренажера".
                                                          0
                                                          Посмотрел в поисковике на картинки манускрипта, и стало интересно, почему страницы в нем пронумерованы арабскими цифрами, по логике, должны быть пронумерованы тем же языком или шифром что и сам манускрипт.
                                                            0

                                                            Там две нумерации: листы пронумерованы справа внизу римскими или арабскими цифрами, страницы пронумерованы справа вверху арабскими. Считается, что эта нумерация выполнена не автором, а более поздними хранителями. Стиль римских цифр был примерно определён как XV век (Дж. Мэнли), а арабских — XVI (С. де Риччи) — XVII век (Дж. Мэнли), но не исключая вероятности и XV века. Однако более-менее точно можно судить, что обе нумерации выполнены разными людьми. Более того, и нумерация листов выполнена разными людьми (Н. Пеллинг), а на 19 и 20 листах расположена в другом месте и записана не порядковыми, а количественными числительными.

                                                            0
                                                            Вопрос в тему, а не пытались ли с помощью нейронных сетей разобрать дельфиний язык?
                                                              0
                                                              Интересно, можно ли сделать word2vec для текстов того времени и этой книги.
                                                                0

                                                                Для word2vec нужен корпус текстов. Если бы у нас была целая библиотека подобных манускриптов, то можно было бы попытаться. Но, думаю, учёные тогда и без компьютеров смогли расшифровать эти тексты. Текстовый объём Манускрипта Войнича не такой уж и большой. Вдобавок, обычно сначала рекомендуют лемматизировать отдельные слова текста, то есть приводить их к словарной форме, что, очевидно, мы сделать не можем, потому что не знаем грамматику этого языка.

                                                              Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

                                                              Самое читаемое