Что общего у монахов, оптического распознавания текстов и козьего сыра?

    Если вы ответите «ABBYY FineReader», то будете правы. Некоторое время назад в американский офис ABBYY обратился отец Григорий, настоятель монастыря Святого Григория Паламы (St. Gregory Palamas Monastery), с просьбой помочь решить необычную задачу, которая стояла перед монастырём. В монастыре хранится архив старых документов на греческом языке с политонической системой диактрики, которые нужно было оцифровать. Узнав об этом, наши американские коллеги подарили настоятелю коробку ABBYY FineReader 10 Professional Edition. Что это за система и почему отцу Григорию понадобился именно FineReader – читайте под катом.

    Греческий – один из самых древних письменных языков мира и имеет богатую историю (подробности можно прочитать хотя бы в Википедии). До 1982 года в письменном греческом языке была принята политоническая система – для обозначения ударений и придыханий использовались надстрочные и подстрочные знаки (они называются диактритическими). Выглядит это так:



    Поскольку в современном устном греческом нет придыханий и не различаются типы ударения, с 1982 года на письме также официально применяется монотоническая система с одним знаком ударения.

    Распознать документы на политоническом греческом, в принципе, несложно, поскольку большинство современных шрифтов содержат символы с диакритическими знаками. Главным для отца Григория было найти удобную программу, которая позволила бы монахам максимально упростить работу по оцифровке. Выбор пал на ABBYY FineReader 10, который поддерживает современный монотонический греческий с одним знаком ударения. Кроме того, в FineReader для распознавания нестандартных диакритических ударений можно было использовать редактор шаблонов ABBYY FineReader 10 Professional Edition, который обучает программу распознавать нестандартные символы (об этой функции мы подробно рассказывали здесь).

    В политонической системе греческого языка семь диакритических надстрочных ударений. Большинство из них и самые разные их сочетания могут быть использованы с гласными буквами греческого языка. Всего получается чуть более двухсот возможных сочетаний символов с диакритическими знаками. Оставалось обучить FineReader распознавать отдельные политонические ударения и их сочетания. Сейчас программа обучена и монахи готовы приступить к работе.

    Мы надеемся, что благодаря FineReader 10 монахам удастся спасти одно из главных достояний монастыря – древние греческие тексты – и они смогут продолжить свою обычную жизнь в молитвах, учении и труде. В благодарность сотрудники ABBYY получили фрукты, выращенные на территории монастыря и заботливо собранные монахами, лучший козий сыр и копченую лососину, которые они когда-либо пробовали.

    Алиса Рахманова,
    Департамент продуктов для распознавания текстов
    ABBYY
    Решения для интеллектуальной обработки информации

    Комментарии 16

      +3
      Только американские коллеги козий сыр и копченую лососину получили?
        +3
        До Москвы оно бы не доехало ))
          +3
          Козий сыр и так имеет довольно специфический запах и вкус, так что в Москве может быть и не заметили бы, что что-то с ним не так )
            0
            Обижаете :)) Правильный специфический вкус козьего сыра мы знаем хорошо ))
        +11
        Первая мысль после прочтения заголовка — «они воняют».
        Но всё оказалось куда позитивнее =)
          +2
          Как хорошо, что мы не оправдали ваших ожиданий :)
            +1
            А чем воняет оптическое распознавание текстов?
              +2
              Меня тоже заинтересовало, пришлось прочитать топик =)
            0
            Я же не усну если кто-то в интернете не прав.

            «Поскольку в В СОВРЕМЕННОЙ устной речи [греческого языка (и не только в устной)] нет придыханий и не различаются типы ударения…» (Добавлено и выделено мной). А вот в древнегреческом диалекте койнэ и произношение имеет значение, и написание также. Не всегда, но достаточно часто именно произношение и написание меняет смысл сказанного/написанного. На этом непонимании и живут всякие секты.
              +2
              Извините, самому приходилось греческие тексты переводить в цифру. ABBYY FineReader оправдывает свою цену.
                +2
                Спасибо за поправку!
                  0
                  Спасибо что поправили.
                +1
                Неделю назад я задавал вопрос в facebook Давиду Яну как раз по этой теме — поддержка древнегреческого языка, на что мне было вежливо сказано, что добавление поддержки нового языка стоит прилично и в данном случае, экономически невыгодно. Монах может научить распознавать одну книгу, а что делать с другой? Отмечу, что гугл индексирует книги на древнегреческом и позволяет искать.
                  +1
                  «Мы надеемся, что благодаря FineReader 10 монахам удастся спасти одно из главных достояний монастыря – древние греческие тексты»?

                  Для того, чтобы спасти ценную книгу, ее достаточно отсканировать. После перевода в цифру книга спасена. Независимо от того, какие там начертания букв и рисунки. Будет ли потом проводиться распознавание текста, это уже к спасению не относится. Выполнить OCR никогда не поздно.
                    0
                    То-то я думаю, что меня смущает в этом «спасении»… =) А вот оно что! Спасибо, что сформулировали мои мысли =)
                    0
                    А русские монахи для оцифровки церковнославянских текстов тоже с богатой диакритикой могут рассчитывать на аналогичный подарок от ABBYY?

                    Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

                    Самое читаемое