EgorAlexandrov 18 мая 2016 в 00:00

Готическое распознавание: как мы помогали оцифровывать Национальную библиотеку Латвии

4 мин

12K

Блог компании Content AIОбработка изображений*

+38

Комментарии 21

roboter 18 мая 2016 в 10:27

Просто для интереса, а сторонняя компания может сделать сама поддержку новых графем, или всё завязано на вас?

luciana 18 мая 2016 в 11:01

Вы имеете в виду сделать сама поддержку и интегрировать с нашим продуктом?

roboter 18 мая 2016 в 11:25

сделать поддержку без интеграции, используя SDK

luciana 18 мая 2016 в 16:13

Растровый классификатор можно обучать пользовательским эталонным изображениям символов. В продукте (ABBYY FineReader Engine) это называется User Patterns Training.

Позволяет обучить OCR в общем случае произвольному изображению какого-либо символа или группы символов.

Есть ограничения:

• Шрифт и условия сканирования при обучении и распознавании должны совпадать. Никакой «омнифонтовости».
• Китайский, корейский и японский языки не имеют такой возможности.
• Встроенный механизм деления на символы должен довольно надежно отделять целевую графему от прочих.

svboobnov 28 мая 2016 в 16:18

Если нужен какой-то экзотический язык, то можно воспользоваться CuneiForm (переводится как «клинопись») CuneiForm в Вики и исходный сайт.. Для неё есть пакет cuneiform-data, т.е. всё открыто.
Вот у меня:
$ apt-cache search cuneiform
cuneiform — Программа распознавания символов (OCR) Cuneiform, Linux-версия
cuneiform-qt — GUI frontend for Cuneiform OCR
yagf — Оболочка YAGF предоставляет графический интерфейс для консольных программ распознавания тектов cuneiform и tesseract
cuneiform-data — Поддержка различных языков и другие файлы с данными для OCR Cuneiform

Shultc 18 мая 2016 в 13:34

Национальная библиотека Латвии – крупнейшая в стране, основана в 1919 году

На кдпв изображено новое здание библиотеки, построенное пару лет назад. Так называемый «Замок Света». Не путайте людей, в 1919 у нас такое бы не построили…

Telmah 18 мая 2016 в 16:41

Здание библиотеки и сама библиотека — как организация — немного разные вещи

expeon 18 мая 2016 в 16:41

Библиотека-учреждение и библиотека-здание — две разные вещи. В данный момент учреждение находится в Замке Света, не вижу путаницы.

Shultc 18 мая 2016 в 13:41

Вот смотрю я на ваши сканы… А где все гарумзими? Латышские тексты обычно ими кишат.

ernt 18 мая 2016 в 14:34

Правописание довольно сильно поменялось в начале XX века. Сравните третью строчку на третьем скриншоте: «schee wilkahs Schlesijâ eekschâ un gribbeja to» с современным «šie vilkās Šlezijā iekšā un gribēja to» (точнее, Silēzijā, но это уже не про буквы). Если правильно понимаю, в готическом написании гарумзиме ставились только на концах слов в локативе, в середине же обходились добавлением «h» после гласной. В то же время букв со знаками смягчения («ņ», «ķ») в том же тексте полно.

Shultc 18 мая 2016 в 14:51

Интересное наблюдение. Но вообще, думаю вы согласитесь, что готический текст больше похож на современный немецкий (к примеру), чем на латышский.

ernt 18 мая 2016 в 14:54

Само собой, на то были очевидные исторические причины.

19th 28 мая 2016 в 16:18

Не мало материалов так же было отредактированно (поправлено) вручную,
сайт-каталог periodika.lv даёт возможность отредактировать оцифрованный материал.

Например самый активный пользователь Aigars Liepiņš сделал 6086 изменения,
а вообще вот топ изменений ссылка

ernt 18 мая 2016 в 15:42

Немало материалов также было отредактированно (поправлено) вручную, сайт-каталог periodika.lv даёт возможность отредактировать оцифрованный материал.

Например самый активный пользователь Aigars Liepiņš сделал 6086 изменения, а вообще вот топ изменений http://periodika.lv/#userTops;content=editors;timeRange=allTime

sanja1989 18 мая 2016 в 17:52

А с чуть более современным латышским разбирались? Я оцифровывал несколько документов 40-х годов. Тогда использовались буквы, которых уже нет сейчас и в шрифтах я их не смог найти. К примеру, есть брошюра «ТРИ ГОДА ОТЕЧЕСТВЕННОЙ ВОЙНЫ СОВЕТСКОГО СОЮЗА (военные и политические итоги).» 1944 года на латышском и в ней используется мягкая буква «R» (с запятой под ней, как "Ķ"). Возможно есть шрифты в которых такие буквы можно найти?

ernt 18 мая 2016 в 17:54

Ŗŗ, Ōō ;)

ernt 18 мая 2016 в 17:56

Вообще, ради этих двух букв я как-то раз и сделал letters.ernt.lv. Ну, делал ради этих, но слегка увлёкся…

luciana 19 мая 2016 в 09:51

Эти символы мы распознавать умеем, они есть у нас в языке Latvian Gothic

НЛО прилетело и опубликовало эту надпись здесь

APXAHGEL 18 мая 2016 в 17:52

А можете дать ссылочку где хорошо описан омнифонтовый классификатор? И ещё про дифференциальный не совсем понял, зона с отличиями для близких символов жёстко прописывается? И что, собственно, дальше с этой зоной делают?

TonyMas 18 мая 2016 в 18:53

В нашем же блоге была пара статей про устройство нашего распознавания.
Первая часть и вторая часть. Вам нужна больше вторая часть. Только омнифонтовый классификатор там назван байесовским, чтобы быть более приближенным к стандартной терминологии.

У нас есть несколько классификаторов, построенных следующим образом: выбираем много (порядка сотни) базовых признаков, собираем из них вектор, объявляем такие вектора нашим пространством признаков и строим на них байесовский классификатор

Это как раз про омнифонтовый классификатор (в самой статье сильно больше написано).
Про устройство дифференциального классификатора там тоже отдельный раздел, название в этом случае совпадает :)

Зарегистрируйтесь на Хабре, чтобы оставить комментарий