Исследователь Калев Литару из GDELT Project использовал модель Google Gemini 3.0 Pro для расшифровки загадочных рукописных аннотаций в экземпляре Нюрнбергской хроники 1493 года — одной из важнейших иллюстрированных книг раннего книгопечатания. Четыре круглые пометки с латинскими сокращениями и римскими цифрами на полях страницы ставили ученых в тупик на протяжении веков: непонятно было, что это — случайные каракули, декоративные элементы или какие-то расчеты. Gemini решил задачу с первой попытки, потратив вычислительных ресурсов на 2,6 цента — чуть дороже 2 рублей.

Оказалось, что владелец книги в XVI веке решал для себя хронологическую головоломку. В Библии существуют две традиции датировки событий — греческая (Септуагинта) и еврейская, и они серьезно расходятся. По греческой версии Авраам родился в 3184 году от сотворения мира, по еврейской — в 2040 году, разница больше тысячи лет. Неизвестный читатель хроники решил разобраться и пересчитать обе даты в формат "до Рождества Христова". В кружочках он сделал себе шпаргалку-конверте��: 2015 год до н.э. по греческой традиции и 1915 год до н.э. по еврейской — ровно 100 лет разницы. Согласование библейских хронологий было популярным интеллектуальным занятием эпохи Реформации.

Задача для ИИ оказалась сложнее простого распознавания текста. Модели пришлось прочитать 500-летний рукописный текст с нестандартными сокращениями, соотнести его с печатным содержанием страницы и выстроить логическую цепочку рассуждений. Gemini пошел дальше расшифровки и провел палеографический анализ почерка: по характеру написания букв, использованию чернил и стилю сокращений датировал пометки 1500–1550 годами и предположил, что автор — немецкий ученый или священник, владевший латынью и математикой.

Gemini допустил несколько мелких числовых ошибок при чтении отдельных цифр, но общая интерпретация оказалась внутренне согласованной и соответствует известным средневековым подходам к библейской хронологии. Это первое правдоподобное объяснение назначения этих аннотаций. Результат демонстрирует, что мультимодальные модели выходят за рамки распознавания образов к задачам, требующим рассуждения на стыке зрения, языка и специализированных знаний — а значит, огромные архивы исторических документов, веками ждавших исследователей, теперь можно обрабатывать автоматически.

P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.