Как стать автором
Обновить

Компьютерный алгоритм пытается соединить 320 000 фрагментов рукописей

Время на прочтение 3 мин
Количество просмотров 21K


В 1896 году в генизе каирской синагоги обнаружили остатки рукописей: 320 тысяч измельченных фрагментов бумаги и пергамента. За прошедшие 117 лет удалось вручную соединить 4 тыс. из найденных фрагментов. На основе полученной информации написаны тысячи научных работ, но сейчас за дело взялись прикладные программисты.

16 мая 2013 года стартовал проект компьютерной обработки фрагментов. Специалисты из Тель-Авивского университета используют технологии распознавания образов, которые известны со времён конкурса DARPA по восстановлению документов после шредера. Все фрагменты сканируются, очищаются от фона и выравниваются, затем выделяются границы, программа ищет соответствие по форме кусочков, линиям на бумаге, точкам соприкосновения чернильного следа и т.д. Операторы проверяют корректность соединения фрагментов, а окончательная сборка осуществляется в графическом редакторе.

В случае с каирской рукописью ситуация осложняется тем, что за прошедшее столетие фрагменты расползлись по 67 библиотекам и частным коллекциям, разбросанным по всему миру: от Кембриджа до Санкт-Петербурга.

Кроме того, изначально было неизвестно, фрагменты скольких разных документов находятся среди этой кучи остатков. Для решения таких задач важно определить язык, на котором написан текст каждого документа, точный набор используемых символов, расстояние между строчками — чтобы отнести каждый фрагмент к тому или иному документу. Среди сотен тысяч найденных фрагментов — тысячи разных документов, написанных на иврите, арамейском и иудео-арабском языках.

Уже удалось выяснить, что документы датируются 9-19 веками. Среди документов обнаружились письма Моисея Египетского от 12 века, части Торы и молитвенников, листики со стихами, личные письма, контракты, алхимические мануалы, судебные выписки, даже рецепты и другие документы на пергаменте и бумаге, рассказывающие о жизни еврейской общины в Египте. Историки узнали, что евреи, оказывается, участвовали в импорте льна, тканей и овечьего сыра из Сицилии. Кроме того, найден довольно мерзкий рецепт медового вина, пишет NY Times.

Среди прочего, найден брачный договор, в котором невеста по имени Файза бат Соломон ставит перед своим женихом Тобиасом условие «отказаться от глупости и идиотизма» и «не связываться с плохими людьми», иначе он заплатит штраф 10 золотых динаров. Среди судебных документов — юридический спор между гражданкой Ситт И-Насаб и её мужем Соломоном, где супруга требует запретить своей свекрови и её дочерям входить в её покои и вообще обращаться к ней с любыми претензиями.

Во всей куче фрагментов около 15 тыс. относятся к бытовым, повседневным, нерелигиозным записям 950-1250 гг. Например, среди «челноков» на торговых маршрутах того времени самым прибыльным товаром были вовсе не золото и специи, а ткани и мыло.


Восстановленный фрагмент письма Моисея Египетского

Количество фрагментов здесь было гораздо больше, чем на вышеупомянутом конкурсе DARPA. Для сборки паззлов нужно сделать 12,4 миллиардов сравнений фрагментов, на данный момент сделано около 3,3 млрд сравнений. За один час кластер из 100 компьютеров в Тель-Авивском университете может сравнить только 10 миллионов пар, так что процесс будет продолжаться ещё несколько недель (ожидаемое время окончания: 26 июня, 9:46 утра). За ходом выполнения работ можно следить на официальном сайте.

Компьютерное сравнение фрагментов — последний этап большой программы по сбору и оцифровке фрагментов рукописей. Проект начался в 1997 году, и помогать в поиске совпадений могли все желающие, зарегистрировавшись на сайте Genizah Project.

Деньги на реализацию программы в размере 20 миллионов долларов выделил канадский финансист Альберт Фридберг.
Теги:
Хабы:
+35
Комментарии 14
Комментарии Комментарии 14

Публикации

Истории

Ближайшие события

Московский туристический хакатон
Дата 23 марта – 7 апреля
Место
Москва Онлайн
Геймтон «DatsEdenSpace» от DatsTeam
Дата 5 – 6 апреля
Время 17:00 – 20:00
Место
Онлайн