Как ИИ от DeepMind помогает историкам расшифровывать поврежденные тексты из Древней Греции / Habr

Специалисты из DeepMind много раз реализовывали уникальные технологические проекты, которые удивляли своими возможностями. Об одном из таких проектов, AlphaGo, на Хабре рассказывали много раз. AlphaGo стал доказательством того, что технологии способны в буквальном смысле ломать шаблоны. Так, в течение многих лет считалось, что компьютер не способен побеждать в играх, где требуется интуиция. Но оказалось, что может — и доказательством тому стала многократная победа алгоритма в чемпионатах по го.

Сейчас в DeepMind разработали технологию, которая производит впечатление не яркими победами над человеком, а своими возможностями в научной отрасли — если быть точнее, в истории. Система, которая получила название Ithaca, помогает историкам читать древние тексты, которые повреждены. В запасниках музеев хранится большое количество различных артефактов прошлого, которые очень сильно повреждены временем. И если оружие, доспехи, одежду можно реставрировать, то вот тексты, которые нанесены на поврежденный папирус, пергамент и другие «носители», восстановить не так просто. Но Ithaca с этим справляется.

Проблемой для историков являются не только поврежденные тексты, но и их происхождение — время и место. Для истории важное значение имеет место написания текстов, будь то пространный документ или нечто вроде бухгалтерского отчета. Но выяснить это далеко не всегда представляется возможным — просто потому, что такие документы часто перемещаются на сотни и даже тысячи километров от места своего создания. Ну и третий важный фактор для историков — время, когда текст был написан. Благодаря радиоуглеродному и другим видам анализа возраст документа можно выяснить достаточно точно. Но вот проблема — для любых видов анализа требуется образец носителя, на который нанесен текст. А в случае древних материалов достаточно небольшого воздействия, и бесценный артефакт может быть сильно поврежден или и вовсе разрушен.

Технология, о которой идет речь в материале, способна решить практически все эти задачи. Конечно, инструмент не идеален, но он способен на многое из того, чего не может сделать ученый-историк даже очень высокой квалификации.

Поврежденные тексты и Пифия

Часто документы, которые дошли до нашего времени, являются неполными. Восстановить смысл утерянного участка в обычной ситуации невозможно или очень сложно. В большинстве случаев утерянные участки, вернее, их смысл, восстанавливают при помощи сохранившегося текста, а также возможных подсказок, которые могут быть в других источниках, историческом контексте и т.п.

Несколько лет назад группа ученых и разработчиков создали систему, которая позволяет значительно ускорить этот процесс. Так, Яннис Ассаэль из DeepMind, Теа Соммершилд и Джонатан Праг совместно с исследователями из Оксфордского университета разработали Pythia. Это технология восстановления древних текстов, которая названа в честь жрицы-прорицательница при храме Аполлона в Древней Греции.

Сначала ученые начали работу с базой данных Гуманитарного института Паккарда. Это крупнейшая цифровая коллекция древнегреческих надписей. Ее решили преобразовать в машиночитаемый текст, базу, которая получила название PHI-ML. В базе, к слову, содержалось около 35 000 надписей и около 3 млн слов — с 7 века до нашей эры по 5 век нашей эры. Как только все это преобразовали в понятный для ИИ-системы текст, Pythia научили предсказывать недостающие буквы в намеренно незавершенных или поврежденных словах. В основе всего этого лежала сложная система из нейронных сетей.

Столкнувшись с проблемным словом или предложением, Pythia предлагала до 20 различных вариантов букв и слов, которые могли быть в оригинальном варианте текста. Кроме того, система выводила уровень «правдоподобности» для всех предложенных вариантов. После ряда тестов разработчики системы проверили ее в деле на реальных текстах с известной уже расшифровкой. Над этими текстами работала одновременно как Пифия, так и аспиранты по эпиграфике. Команда протестировала систему, сравнив результаты Пифии по разбору 2949 надписей. У выходных данных Pythia оказалось 30,1% ошибок по сравнению с 57,3% ошибок для аспирантов. Пифия также смогла выполнить задание намного быстрее: для расшифровки 50 надписей потребовалось всего несколько секунд, по сравнению с двумя часами для начинающих ученых.

Если вы читаете наш блог, вас могут заинтересовать эти тексты:

→ Как мы выбирали лучшие из новых видеокарт NVIDIA
→ Зачем дата-центры устанавливают динамические источники бесперебойного питания
→ Стоит ли создавать собственный корпус для сервера

Новый этап работы — в игру вступает Итака

Как и говорилось в начале, финальная система, которая ведет работу по расшифровке текстов, получила название Ithaca. Она занимается не только восстановлением повреждённых участков, но и помогает выяснить, где и когда были созданы восстановленные тексты. Результаты работы группа авторов проекта выложила в свой блог, где, кроме всего прочего, показала на интерактивной карте возможные места создания древних текстов. Датировка — от 800 лет до н.э. до 800 лет н.э.

Как оказалось, точность работы нового алгоритма составляет около 62%. Тогда как средняя оценка точности восстановления текстов с оценкой даты и места их происхождения учеными — всего 25%. Но есть интересный нюанс. Если система работает вместе с человеком, специалистом по эпиграфике, то точность еще выше — она поднимается до 72%. Разброс дат, то есть времени происхождения текстов — плюс-минус 30 лет. Не так и много, если учитывать временной интервал, с которым ведется работа — свыше 1500 лет.

После того, как корректность работы была подтверждена учеными, возможности Ithaca решили использовать для решения проблемы с датировкой определенного пула афинских текстов. У нескольких специалистов по Древней Греции возникли расхождения во взглядах относительно их датировки. Например, некоторые ученые считали, что тексты были написаны примерно в 446 г. н.э. Другие утверждали, что они созданы позже — примерно в 420 г. до н.э. Алгоритм, проанализировав спорный пул материалов, выдал, что тексты были написаны примерно в 421 г. н.э.

Разница вроде бы не такая и большая, но для специалистов по Древней Греции она огромна, поскольку имеет важное значение для определения хода политической истории в древнем государстве.

Что дальше

Насколько могут судить специалисты, алгоритм работает корректно, и, как указано выше, результат работы Ithaca выше, чем результат работы ученых. Сейчас систему планируют адаптировать для работы с другими текстами на других языках, включая аккадский, иврит и майя.

Несколько ученых, проанализировав результаты работы алгоритма, созданного DeepMind, заявили, что с нетерпением ждут применения возможностей технологии в других направлениях истории. Так, в музеях достаточно много текстов, о происхождении которых не известно практически ничего — просто потому, что они стали жертвами «охотников на древности». Т.е. людей, которые покупали и продавали тексты, полученные по неизвестным каналам, ради обогащения.

В итоге ни точные даты создания таких документов, ни место происхождения ученым неизвестно. Что и говорить, мы тоже с нетерпением ждем результатов работы Ithaca в ближайшем будущем.