AntiqGPT. Неожиданное применение этих ваших LLM / Habr

Недавно я вернулся из отпуска, который проводил в Турции недалеко от Анталии. В один из дней мы с семьёй оставили уютный олл-инклюзив и отправились посмотреть руины древнего греческого города Фаселис, расположенные неподалёку.

Какой ордер у колонны?

Бродя по этим живописным заросшим лесом развалинам, окруженным бухточками, на бывшей городской площади я сфотографировал вот эту каменную плиту:

Послание сквозь 2000+ лет. Меня завораживают такие штуки.

Несмотря на повреждения, часть текста осталась вполне читабельной. Ещё каких то пять лет назад, без знания койне, при отсутствии рядом музейной таблички с расшифровкой, понять о чём тут речь было бы абсолютно невозможно.

Древние оставили нам много текстов, большая часть из них всё ещё не расшифрована. В одной только Турции известны многие десятки (возможно сотни) греческих, римских, византийских, фригийских, лидийских, хеттских и других древних городов.

Локации некоторых руин в Турции

В базах данных греческой эпиграфики содержится свыше 100 000 надписей, из которых около трети имеют значительные лакуны или повреждения. Классический подход к расшифровке требует от эпиграфиста:

- Знание палеографии (эволюции письма) для каждого региона и периода
- Понимание локальных диалектов и особенностей языка
- Знакомство с историческим контекстом конкретного места
- Интуицию для восстановления смысла по отдельным буквам

Даже опытный специалист может потратить на одну надпись несколько недель, при этом результат порой остается гипотетическим. В мире есть вероятно пара сотен специалистов, способных профессионально работать с древнегреческими надписями. При текущих темпах работы полная обработка только уже накопленного материала займет столетия, а ведь коллекция постоянно пополняется новыми находками.

Подумав об этом (пять лет назад) я бы просто пошёл себе дальше осматривать руины. Но теперь у меня в кармане есть инструмент, который содержит в себе "знание" огромного корпуса известных древних текстов. Называется он LLM, большие языковые модели, в простонародье "Искусственный Интеллект".

Значит надо скормить фотку нейронке и посмотреть, что будет.

Первым на очереди был DeepSeek, который заявил, что у него лапки.
Claude узнал греческий текст, но отказался его расшифровывать.
ChatGPT оказался куда более сообразительным:

На изображении представлена древняя каменная стела с надписью на древнегреческом языке, высеченная в стиле эпиграфики классического или эллинистического периода. Надпись достаточно повреждена, особенно в центральной и нижней части, но видны характерные буквы греческого алфавита (Α, Ε, Η, Ο, Π, Σ, etc.), написанные без пробелов и диакритики, как это было принято в древних надписях.

Попробуем начать с частичной расшифровки сохранившихся строк в верхней части, где надпись читается лучше. Учти, что в силу эрозии и сколов камня это будет лишь реконструкция, а не дословный перевод:

[Отлично, давай!]

Примерная транслитерация (первые строки):

...ΑΡΧΟΝΤΟΣ ΕΠΙ ΤΗΣ ΠΟΛΕΩΣ  
ΚΑΙ ΕΠΙ ΤΩΝ ΙΕΡΩΝ ΚΑΙ ΤΗΣ  
ΓΑΜΑΣ ΤΗΣ ΑΝΕΦΗΝΕΝ  
...ΝΑΓΙΛΛΟΥ ΙΩΝΟΣ  
ΕΔΩΚΕ ΤΩΝ ΧΡΗΜΑΤΩΝ...

Примерный перевод:
"...во время архонства (власти) над городом,""и над святилищами, и (вероятно) браком (или обрядом посвящения),""(некто) посвятил (или сообщил, объявил)...""(имя, возможно Нагилл, сын Иона),""дал (или пожертвовал) из средств..."
Дальнейшие строки фрагментарны, но видны стандартные формулы, часто встречающиеся в греческих декретах, посвятительных надписях или общественных постановлениях. Такие надписи могли фиксировать:
решения городского совета (βουλή),общественные благодарности,пожертвования граждан,строительные работы или реставрации храмов.
Что можно сделать дальше для полноценной расшифровки:
Повысить контраст изображения для лучшего чтения букв.Выполнить 3D-модель поверхности (если возможно) — часто используется при археологических исследованиях.Сравнить видимые строки с базами древнегреческих надписей, например, PHI Greek Inscriptions или [SEG (Supplementum Epigraphicum Graecum)].

ChatGPT обучен на корпусе древнегреческих текстов, включающем произведения от Гомера до византийских авторов. Модель "знает" не только словарь и грамматику, но и типичные формулировки эпиграфических текстов: посвящения богам, почетные декреты, надгробные эпитафии. Когда нейронка "видит" фрагмент она анализирует контекст и предлагает варианты завершения, основываясь на тысячах похожих надписей в своих исходных данных.

[Сделай OCR-распознавание, а затем на его основе реконструируй полный возможный текст]

Верхние 5 строк (визуальное чтение и транслитерация):
(частично утрачена) ... ΗCΑΡΧΟΝΤΕCΕΠΙΤΗCΠΟΛΕ...
Транслитерация: ...ēs archontes epi tēs pole[ōs]
→ "...в правление архонтов над городом..."
ΚΑΙΕΠΙΤΩΝΙΕΡΩΝΚΑΙΤΗC...
Транслитерация: kai epi tōn hierōn kai tēs...
→ "и над святилищами, и..."
ΓΑΜΑΤΗΝΕΑΝΑΘΗΚΗΝ... Транслитерация: gama tēn neanathēkēn (возможно ошибочное разбиение) Вариант: ἐγαμα τὴν νέα ἀναθήκην
→ "освятил новый дар (или: посвящение)"
...ΝΑΓΙΛΛΟΥΙΩΝΟC Транслитерация: ...Nagillou Iōnos
→ "…(имя), сын Иона"
ΔΩΚΕΤΩΝΧΡΗΜΑΤΩΝ... Транслитерация: edōke tōn chrēmatōn
→ "пожертвовал из своих средств..."

Итоговый реконструированный перевод на русский язык

"При архонтах, управлявших городом и святилищами, и надзирающих за посвящением, сын Никониона [имя отсутствует] пожертвовал из собственных средств. Он был почтён ранее и теперь также народом признан достойным чести за редкую доблесть. Решением совета и избранных постановлено учредить клятву и записать это постановление на каменной стеле, и установить её на площади навечно — в напоминание. Да не будет ничего ни добавлено, ни удалено с этой стелы вечно, по решению народа Фаселитов, как постановлено советом и народом, в знак добродетели."

Неплохо. Пусть это и очень приблизительная реконструкция, она даёт представление о назначении надписи и немного погружает в историческую эпоху.

Получив текст я попросил нейросеть создать изображение стелы как будто она только что изготовлена. И тут начались проблемы. Модель отказывалась сгенерировать такое количество текста без ошибок, путала буквы и слова, добавляет лишние строки, пробелы, знаки переноса, не может вместить строку на изображении полностью... Заметно, что генерация текста и изображений в ChatGPT делаются разными моделями, и их взаимодействие не всегда проходит гладко. Например, текстовая модель не видит ошибок на картинке, а при просьбе проверить - обращается не к изображению, а к исходному текстовому фрагменту, а потом смешно оправдывается.

В итоге в рамках одного чата мне так и не удалось получить картинку с текстом, соответствующим реконструкции. Встречались, в том числе вот такие странные штуки

Чат решил, что раз уж я занимаюсь электроникой, то изображение pcb-дорожек подключенных к шестеренке на древнегреческой стеле меня обрадует

После ~20 попыток я сдался и прибегнул к чит-коду: промпту который анализирует историю общения и выдаёт на её основе улучшенный промпт. (Рекомендую так делать не только для расшифровки текстов, полезный приём когда диалог с LLM заходит в тупик.)

Скрытый текст

# Роль
Ты - экспертный аналитик промптов, специализирующийся на работе с древними текстами и визуальными задачами. Твоя задача - провести глубокий анализ всей истории диалога и создать оптимизированный промпт для получения корректного результата с первой попытки.

# Задача
Проанализируй весь контекст нашего чата от начала до конца, включая:
- Все мои первоначальные запросы- Все твои ответы и попытки выполнения задач- Все мои исправления, комментарии и указания на ошибки- Паттерны проблем, которые повторялись

Особое внимание удели:
- Проблемам с распознаванием/генерацией текста на изображениях- Ошибкам в анализе древних текстов- Недопониманию контекста или требований- Техническим ограничениям, которые не были учтены

# Инструкции по анализу
1. Определи корневые причины каждой ошибки или неточности
2. Выяви, какая информация была упущена в исходных промптах
3. Найди паттерны в моих исправлениях - что я систематически добавляю или корректирую
4. Оцени, какие дополнительные контекстные данные нужны для точного выполнения
# Формат результата
Создай новый, улучшенный промпт в следующем формате:

ОПТИМИЗИРОВАННЫЙ ПРОМПТ:
[Здесь полный текст нового промпта, готовый к копированию]

КЛЮЧЕВЫЕ УЛУЧШЕНИЯ:
- [Перечисли 3-5 основных изменений по сравнению с предыдущими попытками]

ПРЕДОТВРАЩЕННЫЕ ОШИБКИ:
- [Укажи конкретные проблемы из истории чата, которые теперь должны быть решены]

# Стиль результата
- Промпт должен быть максимально конкретным и однозначным
- Включи все необходимые технические детали и ограничения
- Предусмотри возможные краевые случаи на основе истории ошибок
- Используй четкие, недвусмысленные формулировки

Использование улучшенного промпта в новом чате дало гораздо лучшие результаты.

На мой дилетантский взгляд почти хорошо. Оставшиеся косяки можно при желании поправить фотошопом.

В процессе общения Чат признался, что модель Dall-E, которую он использует для генерации изображений, действительно имеет сложности с генерацией длинных строк текста. Сам того не подозревая, я подсунул ей очень сложную задачу.

Кроме того, нейронка указала на свои слабости в следующих областях:

Локальные особенности: модель предлагает стандартные формы вместо (более редких) местных диалектизмов

Хронологическая точность: возможная путаница между архаическими и эллинистическими формулировками

Контекстная привязка: предложения иногда не учитывали специфику конкретного города. Впрочем, настоящие исследования должны опираться на комплекс находок, а не единственный артефакт.

Несмотря на проблемы, итоговый результат мне нравится. Фактически, я получил возможность провести (пусть и очень поверхностное) исследование древнего памятника, не имея специальных знаний, используя только смартфон с интернетом.

Большие языковые модели "общего назначения" обучены главным образом на литературных произведениях, а не на эпиграфическом материале. Специализированная LLM, тренированная на корпусе древних надписей с учетом их географического и хронологического распределения (например Pythia), должна показать значительно лучшие результаты.

Поскольку нейросеть не может оценить достоверности своей реконструкции, качество итогового результата по-прежнему зависит от экспертизы исследователя. При этом ИИ может в тысячи раз повысить скорость работы, мгновенно генерируя гипотезы, таким образом принести реальную пользу в изучении прошлого.

Ну или удовлетворить любопытство случайного прохожего, как в моём случае. Тоже норм.

Поделитесь вашим опытом необычных применений нейронок.