Как стать автором
Обновить
55.7
Финуниверситет
Финансовый университет при Правительстве РФ

Распознавание орхоно-енисейских рунических надписей методами машинного обучения

Уровень сложностиСредний
Время на прочтение11 мин
Количество просмотров3.5K

Авторы: Бородина Анастасия Дмитриевна, Кочкаров Расул Ахматович 

Телеграм‑канал «Факультетская наука»: https://t.me/Digitarisimus

Введение

Орхоно-енисейские руны — это древнейшая система письма тюркских народов, использовавшаяся с VI по X век на территории Центральной Азии (включая современную Монголию, южную Сибирь и часть Казахстана). Это были надгробные и памятные тексты, выбитые на камне. Они отражают политические, военные и культурные события тюркских племён. Их расшифровка началась во второй половине XIX века и остаётся предметом научных исследований и дискуссий. Исследование символов рунической письменности актуально, так как может помочь в понимании истории и культуры народов этой местности. Интерпретация енисейских надписей с памятников – очень сложная задача. Каменная поверхность разрушена временем, из-за чего символы могут быть плохо различимы. Многие памятники находятся в удаленных, диких местах, где долгий процесс исследования слишком трудозатратен. По этой причине надписи с памятников переносятся на бумажные или цифровые носители для последующей расшифровки. Как отмечал Кормушин И. В. – профессор филологии, тюрколог и алтаевед, перед чтением надписей, необходимо идентифицировать ее символы отдельным этапом. Эта ручная обработка надписей с памятников осложнена не только деформацией самих памятников, но и отсутствием строгой определенности с принадлежностью символов к тому или иному алфавиту. Достаточно распространенной оказалась проблема неточного определения состава рунических символов во многих изданиях XX века. Эти неточности приводят к ошибкам чтения и перевода древних текстов. Поэтому целесообразно автоматизировать этот процесс для повышения точности и скорости определения символов.

Современные методы компьютерного зрения обладают большим потенциалом для автоматизации процесса обнаружения, классификации и распознавания рунических символов. Что может значительно ускорить и улучшить работу исследователей в области археологии. Задача этой работы – создание модели для распознавания рун древнего алфавита Кюль-Тегин. Это исследование является продолжением работы “Распознавание тюркских рунических надписей на примере Ирк Битиг” (https://habr.com/ru/companies/fa/articles/817399/). В этом исследовании изучается другой набор рун, а также используются более разнообразные данные.

База данных

Для обучения изображения с руническими надписями мы собрали данные из общего доступа. В набор данных были включены изображения, содержащие надписи не только из рун алфавита Кюль-Тегин, но и небольшое количество текстов других рунических систем (Ирк Битиг). Особенностью исследования стало то, что помимо черно-белых изображений с перенесенными надписями, в набор входят цветные фотографии памятников. Все рунические символы, не относящиеся к алфавиту Кюль-Тегин были помечены классом 342. Во-первых, такой подход позволяет разметить все рунические символы на изображении. Во-вторых, модель будет учиться определять различные рунические знаки. 

Ход исследования

На первом этапе необходимо было сформировать цифровой алфавит из всевозможного набора символов [2–11]. В результате анализа различных источников была составлена таблица из 42 классов символов рунического алфавита, включая знаки пунктуации (рис.1). Классы 302, 336, 338 специально были оставлены пустыми, чтобы можно было добавить новые руны, не вошедшие в изначальный алфавит.

Рис. 1. Рунический алфавит Кюль-Тегин
Рис. 1. Рунический алфавит Кюль-Тегин

Для маркировки изображений использовался бесплатный инструмент с открытым исходным кодом - cvat.ai (рис. 2). При работе с фотографиями рунических надписей на памятниках, мы столкнулись со следующими проблемами:

●      Низкое качество некоторых изображений;

●      Плохая сохранность самих надписей;

●      Грани памятников на изображении находятся под разным освещением;

●      Большой размер некоторых изображений.

Рис. 2. Разметка символов в cvat.ai
Рис. 2. Разметка символов в cvat.ai

В результате были сформированы тестовая и обучающая выборки, в соотношении 0.8. При разделении было важно, чтобы фотографии разных типов вошли в обе выборки. Таким образом, модель будет учиться работать со всеми вариантами изображений и оценка ее результатов будет наиболее полной. 

На этапе выбора модели машинного обучения для распознавания символов были рассмотрены модели YOLO и FasterCNN. Использование такой модели сразу для детекции и классификации дало низкую точность и бытро приводило к переобучению. Для решения этой проблемы было решено использовать две модели: YOLOv11 для обнаружения рунических символов и сверточная нейронная сеть для их классификаци. Модель YOLOv11 демонстрирует высокую устойчивость к шумам, вариациям освещения и масштабам объектов, что критично для нашей задачи обработки реальных археологических фотографий. Модели обучались и оценивались отдельно, что позволило использовать разные форматы данных.

Модель детекции символов

Так как в работе используются реальные фотографии, часто с высоким разрешением, все изображения приведены к размеру imgsz=900. Такой крупный масштаб был необходим для обнаружения мелких и тонких деталей, характерных для рунических знаков.

Рис. 3. Точность и полнота на валидации в процессе обучения
Рис. 3. Точность и полнота на валидации в процессе обучения

На рисунке 3 показаны изменения метрик precision и recall на тестовой выборке во время обучения. В начальной фазе обучения наблюдается активный рост обеих метрик, что отражает быстрое освоение моделью базовых признаков рунических символов. 

На представленной кривой PR-кривой отображена зависимость точности от полноты при различных порогах классификации (рис. 4). Увеличение полноты, как правило, приводит к ухудшению точности, так как модель классифицирует больше объектов как положительные, что увеличивает число ложных положительных предсказаний. Анализ PR-кривой позволяет подобрать оптимальный порог уверенности в зависимости от цели применения модели:

●      Для максимального охвата редких или важных объектов (например, уникальных символов) целесообразно использовать низкий порог (например, 0.2–0.3), обеспечивающий высокий recall.

●      Для высокой точности и автоматической фильтрации ложных срабатываний предпочтительно устанавливать более высокий порог, около 0.9, при котором модель демонстрирует максимальную уверенность в корректности своих предсказаний.

После начальной фазы обучения модель демонстрирует устойчивое поведение всех метрик, без признаков переобучения или деградации качества. Также можно отметить хорошую управляемость качеством работы за счет варьирования уровня confidence, что позволяет адаптировать модель под различные исследовательские и прикладные задачи. 

Рис. 4. Кривая Precision–Recall
Рис. 4. Кривая Precision–Recall

На тестовой выборке мы получили следующую точность модели детекции: precision=0.75, recall=0.801, mAP@0.5=0.825. Результаты ее применения для фотографий разных типов представлены на рисунке 5. Продемонстрированный пример и значения метрик свидетельствуют о том, что большинство рун обнаруживаются корректно. Модель “видит” более 80% всех истинных объектов на изображениях с порогом уверенности 0.6. Разметка цветной фотографии была неполной, были размечены 223 руны, а модель смогла определить 300 символов . Экспериментируя с этой фотографией мы поняли, что порог можно понижать: модель продолжает обнаруживать новые символы, не делая значительных ошибок. Символы, которые были обнаружены при снижении порога до 0.4, выделены синим цветом. 

Рис. 5. Пример работы модели YOLOv11
Рис. 5. Пример работы модели YOLOv11

Модель классификации

Для задачи классификации изображений была разработана сверточная нейронная сеть, состоящая из нескольких сверточных блоков и линейных слоев. Архитектура включает два основных компонента: модуль извлечения признаков и классификационный модуль. Для ее обучения был сформирован дополнительный массив данных. Из исходных изображений с руническими надписями мы вырезали размеченные символы, сформировав наборы символов для каждого класса рун. На этом этапе мы столкнулись с проблемой несбалансированности классов в датасете (рис. 6). Для компенсации неравномерного распределения классов в обучающем наборе данных использовалось взвешивание функции потерь. Вес каждого класса вычислялся на основе обратной частоты его появления в обучающей выборке, что позволяет увеличивать вклад редких классов при оптимизации модели. 

Рис. 6. Распределение классов в наборе данных
Рис. 6. Распределение классов в наборе данных

Во избежание переобучения классификатор обучался на разнообразных аугментациях. Так как изображения символов достаточно однотипны: имеют похожие фоны, цвета и наклон, применение аугментаций делает классификатор мощнее и позволяет добиться большей точности.

Анализ кривых обучения (рис. 7) показывает высокое качество классификации рунических символов.Классификатор успешно обучается на ограниченном наборе данных, демонстрируя высокие значения точности (около 90%) и F1-меры как на тренировочной, так и на тестовой выборках. Из этого следует, что модель способна извлекать релевантные визуальные признаки, несмотря на вариативность изображений. После примерно 10-й эпохи наблюдается переобучение классификатора – тестовая ошибка начинает увеличиваться, несмотря на снижение обучающей. Скорее всего, это происходит из-за небольшого размера обучающей выборки. На тестовой выборке полнота стабилизируется на более низком уровне, чем точность, что может свидетельствовать о склонности модели пропускать редкие или атипичные классы, включая класс неизвестных рун. После 30-й эпохи большинство метрик на тестовой выборке демонстрируют стабилизацию, что может указывать на достижение модели пределов обучаемости при текущем объеме и качестве данных.

Рис. 7. Кривые обучения классификатора
Рис. 7. Кривые обучения классификатора

На тестовой выборке классификатор достиг следующих результатов: Accuracy=0.9023, F1=0.8840, Precision=0.8994, Recall=0.8745. Модель успешно классифицирует подавляющее большинство изображений, несмотря на разнообразие изображений (различия в освещении, фоновых шумах, стилистике начертания и др.). Около 90% предсказанных моделью символов действительно соответствуют истинным меткам, что можно назвать хорошим результатом в контексте нашей задачи. Учитывая, что на изображениях присутствуют фрагменты, визуально схожие с рунами, но не являющиеся таковыми (например орнаменты) и руны одного класса, но с разными начертаниями, значение метрики recall отражает способность модели обнаруживать максимальное количество подлинных рун. Из отчета о классификации видно, что самые низкие метрики принадлежат классам 342 (38 на рисунке) и 331 (29 на рисунке) (рис. 8). Низкое значение F1 указывает на то, что модель не может эффективно сформировать стабильное представление признаков для этих классов. Это было ожидаемо для класса 342, так как он объединяет в себе множество визуально и семантически разнородных символов, не имеющих четких общих признаков. Также, некоторые символы, отнесенные к классу неизвестной руны, могут визуально напоминать элементы из основных классов, что приводит к повышенному количеству ложноположительных и ложноотрицательных предсказаний. Плохие метрики у класса 331 объясняются нехваткой обучающих данных. Этот класс представлен в выборке меньше всех остальных, следовательно модели не хватило этих данных для извлечения признаков этого класса (рис. 6).

Рис. 8. Отчет классификации
Рис. 8. Отчет классификации

Внедрение класса неизвестной руны помогает нам проанализировать, насколько соответствует набор данных выбранному руническому алфавиту. Несмотря на то, что 342 класс является одним из самых многочисленных в выборке, всего 6% надписей принадлежат другим алфавитам (рис. 6). Результаты работы классификатора на одном из тестовых примеров представлены на рисунке 9. На этом примере была всего одна руна из класса 342, которую модель успешно обнаружила. Тем не менее, 7 неизвестных рун были ошибочно отнесены к нашему алфавиту. 

Рис. 9. Пример работы классификатора
Рис. 9. Пример работы классификатора

Анализируя работу модели, была составлена диаграмма признаков с использованием t-SNE (рис. 10). Большинство классов формируют хорошо различимые плотные кластеры, что свидетельствует о способности модели извлекать устойчивые и дискриминативные признаки для разных рунических символов. 

Рис. 10. Визуализация признаков с использованием t-SNE
Рис. 10. Визуализация признаков с использованием t-SNE

В центральной области наблюдается частичное наложение кластеров — это может указывать на визуальную схожесть между отдельными рунами или нечеткость границ между некоторыми классами. Также на это может влиять класс неизвестные руны, который из-за своей гетерогенности распределяется в промежутках между основными кластерами. 

Заключение

Подводя итоги, обе модели демонстрирует высокую степень обобщающей способности для классификации рунических символов в условиях сильной визуальной вариативности. Они применим для обработки как оцифрованных рунических надписей, так и их реальных фотографий. Тем не менее, сниженное качество работы класса 342 отражает фундаментальные ограничения модели в ситуации обобщения на непредставленные или атипичные классы. Из этого можно сделать вывод, что для более корректной обработки новых или редко встречающихся символов необходимо расширить обучающий корпус. Это также поможет повысить точность классификации редких символов, представленных в текущем датасете всего парой изображений.

Основная проблема, с которой мы столкнулись в ходе исследования – нехватка размеченных данных. Кроме того, некоторые изображения были проаннотированны неполностью, что путает модель и приводит к некорректной оценке. Представленные в работе модели обучались на небольшом наборе, включающем всего 81 изображение. Такое малое количество примеров существенно ограничивает способность модели к обобщению, особенно в условиях высокой внутриклассовой вариативности рунических символов и наличия фоновых шумов на фотографиях. 

Последствием этой проблемы стало переобучение, из-за которого невозможно добиться лучшей точности на наших данных. Модель начинает «запоминать» индивидуальные особенности тренировочных данных, даже несмотря на аугментации. Таким образом теряется способность к обобщению новых, ранее не встречавшихся объектов.

Результатом нашего исследования является прототип системы автоматического распознавания рунических символов. Несмотря на то, что классификация охватывает лишь руны алфавита Кюль-Тегин, внедрение отдельной модели детекции позволило успешно обнаруживать символы и из других рунических систем, что открывает возможности для масштабируемости решения. Выбранные архитектуры машинного обучения продемонстрировали свою эффективность и применимость  для этой задачи. Когда появится больше размеченных данных, модели можно будет дообучить и получить более высокие значения метрик.

Список литературы

  1.  Кормушин И. В. Древние тюркские языки. — М.: Восточная литература, 2006. — 30 с.

  2.  Кормушин И. В. Тюркские енисейские эпитафии. — М.: Восточная литература, 2008. — 5 с.

  3. Кызласов И. Л. Рунические письменности евразийских степей. — М.: Наука, 1994. — 318 с.

  4. Дешифровка орхонских и енисейских надписей // Записки Восточного отделения ИВ РАН. — М., 1995. — Вып. 25. — С. 289–318.

  5. Круглов Е. В. Формирование источниковой базы памятников Соколовской Балки // Нижневолжский археологический вестник. — 2002. — № 2. — С. 69–72.

  6. Kyzlasov I. L. Runic Scripts of the Eurasian Steppes. — Moscow: Russian Academy of Sciences, 1994. — 180 p.

  7. Proposal for encoding the Khazarian Rovas script in the SMP of the UCS. ISO/IEC JTC1/SC2/WG2 N3999. — 2011-01-21.

  8. Васильев Д. Д. Графический фонд памятников тюркской рунической письменности азиатского ареала. — М.: Наука, 1983. — 192 с.

  9. Байчоров С. Я. Древнетюркские рунические памятники Европы. — Ставрополь: Ставропольское книжное изд-во, 1989. — 150 с.

  10. Тишин В. В. Новые соображения о возможности расшифровки надписей на рунических дирхемах на основе материала тюркских языков // Вестник БНЦ СО РАН. — 2018. — № 30. — С. 46–56.

  11. Кононов А. Н. Грамматика языка тюркских рунических памятников VII–IX вв. — Л.: Наука, 1980. — 260 с.

  12. Лебедев Ю. С., Попов П. В. Погребение VIII–IX вв. из Астраханской области и горшок с рунической надписью // Российская археология. — 2023. — № 1. — С. 178–186.

  13. Проблемы археологии Кавказа. Вып. 1. — М.: ТАУС, 2012. — 248 с.

  14. Вопросы тюркологии. — М.: Институт тюркологии, 2010. — № 1. — 188 с.

  15. Кызласов И. Л. К познанию нерасшифрованного письма // Хазарский альманах. — М., 2020. — № 28–29.

  16. Хазарский альманах. Т. 15. — М.: Институт славяноведения РАН, 2017. — 228 с.

  17. Поволжская археология. — 2014. — № 3 (9).

  18. Тюркологические исследования. — 2018. — Т. 1, № 2.

  19. Археологическое наследие / Под ред. А. Н. Головтина. — Липецк: Аргамач, 2018. — ПИ № ТУ48-00362.

  20. Народы и религии Евразии. — Барнаул: Издательство Алтайского государственного университета, 2019. — № 4 (21).

  21. Нижневолжский археологический вестник. — Волгоград: Волгоградский государственный университет, 2018. — Т. 17. № 1.

  22. Кочкаров У.Ю., Беляева В.Н., Кочкаров Р.А., Кочкаров А.А. Подготовка набора визуальных данных для машинного распознавания рунической письменности // Проблематика и методология современных тюркологических исследований: Коллективная монография / отв. ред. Е.А. Оганова. — М.: ООО «Издательство МБА», 2025. — 303 с. — ISBN 978-5-6051431-4-7. – С.162-173.

  23. Ultralytics. YOLOv11 Documentation [Electronic resource]. —https://docs.ultralytics.com/ru/models/yolo11/ — Date of access: 10.04.2025.

Теги:
Хабы:
+14
Комментарии16

Публикации

Информация

Сайт
www.fa.ru
Дата регистрации
Дата основания
1919
Численность
5 001–10 000 человек
Местоположение
Россия