Искусственный интеллект впервые создаст корпус древнеславянских рукописных текстов

    image

    «Во дни сомнений, во дни тягостных раздумий о судьбах Родины», которые особенно тяжки в последние недели, что для нас поддержка и опора? :) Правильно, великий и могучий. И пока курсы валют и пандемия неумолимо владеют массовым сознанием, ученые не прекращают работу. О том, кто и зачем создаст корпус — уникальную «СУБД» древнеславянских рукописей — в нашей новости.

    Коллаборация ученых НИТУ «МИСиС, института русского языка им. В.В. Виноградова РАН,, НИУ ВШЭ при поддержке Комиссии по работе с вузами и научным сообществом при Епархиальном совете г. Москвы запустила масштабный проект по созданию с помощью технологий искусственного интеллекта и машинного обучения уникальной базы древнеславянских рукописных текстов — корпуса. Создание корпуса древнеславянского языка даст исследователям-лингвистам и историкам мощный инструмент для изучения всех современных национальных славянских языков и культур и станет уникальным ключом к пониманию их наследия.

    Корпус – это структурированная база данных языка, информационно-справочная система, основанная на собрании текстов на определенном языке в электронной форме. Он представляет собой подобранную и особым образом обработанную (размеченную) совокупность текстов, которые используются в качестве основы для исследования лексики и грамматики языка.

    image

    Древнеславянские тексты — это многообразие рукописных памятников XI – XVII веков, фундамент всех современных национальных славянских языков и культур. Создание системного корпуса языка связано с трудоемкой, тонкой и кропотливой работой, требующей объединения усилий профессионалов из различных областей и, по мнению ученых, является задачей общенационального характера.

    Иеромонах Родион (Ларионов), заместитель председателя Комиссии по работе с вузами и научным сообществом при Епархиальном совете г. Москвы:
    «В настоящее время не существует корпуса рукописных славянских текстов, и его создание рассматривается учёными различных дисциплин как важная задача. Основной объем древнеславянских – древнерусских, болгарских, сербских текстов XI – XVII веков, которые дошли до нас – это несколько тысяч богослужебных рукописей. Язык меняется от века к веку. Для ученых важно понять, во-первых, почему эти изменения происходят, чем они продиктованы, что влияет на их возникновение, а во-вторых, что эти изменения повлекли за собой. Если анализировать и систематизировать человеческими ресурсами тот объем данных, который представляют собой древнеславянские рукописи – это астрономическая работа, которая растянулась бы на века, особенно, учитывая, что профессионалов, которые способны делать эту работу, в принципе очень мало. Технологии распознавания и оцифровки текстов, машинного перевода и ИИ позволят провести это важную работу в обозримое время».
    Искусственный интеллект позволит охватить весь этот гигантский массив данных, систематизировать и создать алгоритмы расстановки лингвистической разметки – главной характеристики корпуса. Именно она отличает корпус от простой библиотеки.
    Проекты по использованию цифровых подходов к анализу культурного наследия активно развиваются в европейских странах и являются прекрасным примером междисциплинарного взаимодействия.

    В отношении языковых памятников, можно отметить два принципиальных направления работ – преобразование сканированных изображений в «машиночитаемый» вид и построение языковых моделей, упрощающих анализ и понимание текстов. Со славянскими текстами, написание букв (графем) которых отличается витиеватостью и широким использованием диакритических знаков, таких системных наработок еще не предпринималось.

    image

    Андрей Устюжанин, ведущий эксперт Центра инфраструктурного взаимодействия и партнёрства MegaScience НИТУ «МИСиС», руководитель Научно-учебной лаборатории методов анализа больших данных НИУ Высшей школы экономики:
    «Естественный язык является ключевым полигоном для развития технологий ИИ. Именно благодаря этим технологиям задачи машинного перевода, построение диалоговых систем и задачи интерпретации текстов на естественном языке получили мощный толчок в последнее время. В некотором смысле, такой проект является мостиком от культуры прошлого к технологиям будущего. По нашему опыту междисциплинарных проектов не так важно заручиться самой продвинутой технологией, как заложить основы общения людей друг с другом – специалистов по языку со специалистами по искусственному интеллекту».

    image

    Первым этапом проекта станет оцифровка и разметка комплекса древнеславянских миней XI-XVII веков на древнерусском, болгарском и сербском языках – служебных церковных книг, содержащих распорядок служб всех дней церковного года, рукописи которых хранятся в собраниях Государственного исторического музея, Российской национальной и государственной библиотек, Российского государственного архива древних актов, Свято-Троицкой Сергиевой лавры.

    Кто-то скажет, ну какие еще древнеславянские рукописи, мир в полном шатдауне. Однако, стоит помнить, что все-таки «вначале было Слово»…
    НИТУ «МИСиС»
    Номер один в России по материаловедению

    Комментарии 17

      +1
      Как вы оцениваете опасность того, что средневековые тексты, которые находятся в общественном достоянии, при помощи такой базы данных опять вернутся под авторское право, а свободное их использование будет запрещено?

      Как НИТУ смог достичь согласия с Историческим музеем и получить право копировать средневековые книги, находящиеся в музее? Наверное, за это пришлось заплатить по 100 рублей за одну страницу, или даже больше?

      Спасибо.
        +1

        ответ авторов проекта:
        В вопросах авторского и смежных прав в отношении древних манускриптов нужно иметь в виду два аспекта. С одной стороны, по очевидным причинам не приходится говорить о правах самих авторов или их наследников. С другой стороны, владельцы манускриптов (а это могут быть как государственные и церковные организации, так и частные лица), как правило, не горят желанием предоставлять свободный доступ к книгам, и подчас это вполне оправдано ввиду их ветхости.
        Однако, со многими владельцами можно работать в этом направлении. Кроме того, конкретно в случае древних славянских рукописей всё не так плохо. Во-первых, имеется довольно большой объём книг, принадлежащих российским государственным музеям, которые уже были отсканированы в хорошем качестве и выложены в открытый доступ для всех заинтересованных исследователей. Во-вторых, есть основания полагать, что вовлечённые в проект церковные структуры предоставят сканы текстов имеющихся у них манускриптов на таких же условиях. Вообще, расширение объёма доступного для исследователей материала — одна из важных задач проекта.

          +1
          Уточню проблему.

          1) Тексты средневековых книг находятся в общественном достоянии. Будет ли корпус общественным достоянием? Или он будет выпущен по лицензии Creative Commons? Или он будет собственностью создателей, то есть они захватят общественное достояние под своё авторское право?

          2) Мне кажется, вы ответили о тех рукописях, которые уже отсканированы и находятся в интернете. А что же с теми книгами, которые ещё не сканированы? Сколько музеи требуют за каждую страницу?

          3) Как НИТУ смог достичь согласия с Государственным историческим музеем и получить право копировать средневековые книги, находящиеся в музее? Сколько пришлось платить за такое право?

          4) В 2015 году Эрмитаж доказал в суде, что рисунок, сделанный по мотивам картины, является производной работой, а следовательно, права на него принадлежат музею. (Дело А63-18468/2012.) Будет ли новый корпус — печатной продукцией с использованием изображений музейных предметов? Смогут ли музеи запретить использование этого корпуса на основании статьи 36 закона от 26.05.1996 N 54-ФЗ?

          Спасибо.
            +1

            На данный момент участники проекта исходят из модели правового статуса Национального корпуса русского языка http://www.ruscorpora.ru/new/


            Имеющийся объём отсканированных и доступных манускриптов уже даёт большие возможности для работы. При дальнейшем развитии, конечно, встанут вопросы финансовой и административной поддержки для обеспечения оцифровки и т.п.
            Это же касается вопросов разделения прав на графические изображения, то есть сканы манускриптов и прав на уже распознанные и размеченные тексты в машиночитаемом формате. Понимание этих проблем у участников есть, на данном этапе непреодолимыми они не представляются.

              0
              Спасибо.

              Отсылка на Национальный корпус русского языка означает: «Мы никому ничего не позволим». Именно таковы условия НКРС. На сайте НКРС написано — «исключительно для некоммерческого использования в научно-исследовательских и учебных целях (в соответствии со статьей 1274 ГК РФ). Они не предназначены ни для чтения/просмотра, ни для копирования, ни для иных видов использования». Хозяева НКРС запретили вообще всё, что только могут запретить.

              Сканы манускриптов находятся в общественном достоянии. Распознанные тексты находятся в общественном достоянии. А вот с размеченными текстами — дело иное. Это уже получается база данных, там возникают авторские права тех, кто размечает текст, и авторские права тех, кто формирует базу данных. Очень жаль, что все эти авторские права не будут отменены, а напротив, станут непреодолимым барьером для всех тех, кто не может платить.

              Очень грустно всё это. :-(
        0
        Меня очень настораживает готовность разметить корпус текстов, грамматика языков которых нам не вполне понятна. Усугубляет ситуацию то, что русский язык — «внучатый племянник» языков этих текстов, так что даже строгим исследователям свойственно проецировать состояние языка современного на язык прошлого, хотя во многих нюансах это только вредит.

        Также непонятно, что будет с графикой — либо нужно придумать очень гибкую и развитую систему, чтобы кодировать все графические варианты букв и знаков, либо неизбежно потерять ценную информацию, как это происходит обычно.
          +1

          Филологи говорят, что им грамматика старославянского понятна с первых курсов филфака.

            +1
            Это проявление эффекта Даннинга-Крюгера, не более того. Я приведу три разнородных примера.
            1. Язык XI века — тоновый. То есть все эти слова в текстах при произнесении имели тон, и тон этот был значимым. Сейчас тон сохранился только в нескольких славянских языках и даже в грамматиках современных языков описан лишь вчерне. Что касается языка XI века, то из сколь-нибудь полных описаний у нас есть только теория Дыбо и Зализняка с парадигмами акцентуации, которая в общем-то оторвана от современной мировой науки и мало что объясняет. Она не подходит для хорошей разметки корпуса в части акцентуации.
            2. Для языка XI века не сформулировано сколь-нибудь целостное и качественное морфонологическое описание. Что такое морфонология — это когда мы объясняем особенности устройства современных слов через прошлое состояние языка. Например, очень упрощая, если взять две пары похожих слов в именительном и родительном падежах: лоб-лба, жлоб-жлоба, то мы видим, что у лба выпадает «о». Морфонология нам дает объяснение — там до сих пор в корне и в окончании редуцированные гласные, которые произносились ещё лет 800 назад везде, но теперь — только в некоторых местах, и на глубинном уровне это слова лъбъ-лъба, жлобъ-жлоба, чем и объясняется, почему у одного слова «о» выпадает, а у другого — нет. Если мы возьмем ещё пару лёд — льда, то тут выпадает уже «ё». На глубинном уровне это до сих пор льдъ-льда. То есть эти редуцированные гласные мы в некоторых позициях не произносим, но у нас в головах на бессознательном уровне по-прежнему они есть и работают по некоторым правилам. Несложно заметить, что морфонологическое описание нас возвращает к языку более чем 1000 летней давности. Но для морфонологического описания языка 1000 летней давности нам надо возвращаться гораздо дальше в прошлое.
            3. В языке XI века у глаголов не было современной категории вида. Что было вместо вида — вопрос открытый и на него есть много ответов. Как их будут размечать?
              0
              Если мы возьмем ещё пару лёд — льда, то тут выпадает уже «ё».

              Но ведь ё — это всего лишь йотированное о (ljod — ljda). То есть по сути этот пример не отличается от «лоб-лба».
                0
                Отличается, вот три однокоренных слова: лёд-льда-ледяно́й. Если «ё» — это просто йотированное «о», то в одном корне у вас три разных варианта: йотированное «о», «йотированное э» и «ничего». Хотя на уровне морфонологического описания там одна и та же гласная «ь». А в лоб-лба — гласная «ъ».
            0

            Замечание в отношении графики абсолютно верное — именно развитие алгоритмов распознавания, которые будут хорошо работать на таком сложном примере, как рукописные древние славянские буквы, в принципе, и является одной из важных задач проекта, без решения которой к проблеме разметки значительных объёмов текста вряд ли можно подступаться.

              0

              Какие графические варианты вы боитесь утерять? Чего не хватает относительно Unicode Technical Note #41?
              И планируется сохранение возможности посмотреть графический файл, в котором находится найденное слово.

                0
                Маленький пример из благовещенской стихири в стихираре собрания Троице-Сергиева монастыря конца XV века:
                image
                Тут две сложности: надстрочные знаки и две разные буквы «Э», причем это не графическая вариация, один вид «э» передают еврейскую букву «алеф», другой — манеру пения. Эта же еврейская алеф пишется в русских рукописях того времени ещё и как греческая лямбда "λ". Как это кодировать?
                  0

                  Певческие крюки в этом проекте никто не собирался кодировать. Интересует сам текст. Здесь, конечно, любопытны эти вставленные «Э», как и «ананейки».

              +1
              А почему в корпус включат исключительно церковные тексты, а не летописи и разного рода «учёт-бухгалтерию»? Для науки ценнее светские данные.
                +1

                Нигде не говорится, что "исключительно церковные". Оцифровка древнеславянских миней — только первый этап. В принципе, методология и алгоритмы, которые будут разработаны для древнеславянского, могут быть актуальны для всех языков, графемы которых "вязеподобны". А это и арабский, и фарси, и хинди, и грузинский и тд..

                  –1
                  На первом этапе будут захвачены минеи, а затем уже и прочие древнеславянские тексты, чтобы ограничить их доступность авторскими правами на корпус?

              Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

              Самое читаемое