Комментарии 21
Просто для интереса, а сторонняя компания может сделать сама поддержку новых графем, или всё завязано на вас?
0
Вы имеете в виду сделать сама поддержку и интегрировать с нашим продуктом?
0
сделать поддержку без интеграции, используя SDK
0
Растровый классификатор можно обучать пользовательским эталонным изображениям символов. В продукте (ABBYY FineReader Engine) это называется User Patterns Training.
Позволяет обучить OCR в общем случае произвольному изображению какого-либо символа или группы символов.
Есть ограничения:
• Шрифт и условия сканирования при обучении и распознавании должны совпадать. Никакой «омнифонтовости».
• Китайский, корейский и японский языки не имеют такой возможности.
• Встроенный механизм деления на символы должен довольно надежно отделять целевую графему от прочих.
Позволяет обучить OCR в общем случае произвольному изображению какого-либо символа или группы символов.
Есть ограничения:
• Шрифт и условия сканирования при обучении и распознавании должны совпадать. Никакой «омнифонтовости».
• Китайский, корейский и японский языки не имеют такой возможности.
• Встроенный механизм деления на символы должен довольно надежно отделять целевую графему от прочих.
+2
Если нужен какой-то экзотический язык, то можно воспользоваться CuneiForm (переводится как «клинопись») CuneiForm в Вики и исходный сайт.. Для неё есть пакет cuneiform-data, т.е. всё открыто.
Вот у меня:
$ apt-cache search cuneiform
cuneiform — Программа распознавания символов (OCR) Cuneiform, Linux-версия
cuneiform-qt — GUI frontend for Cuneiform OCR
yagf — Оболочка YAGF предоставляет графический интерфейс для консольных программ распознавания тектов cuneiform и tesseract
cuneiform-data — Поддержка различных языков и другие файлы с данными для OCR Cuneiform
Вот у меня:
$ apt-cache search cuneiform
cuneiform — Программа распознавания символов (OCR) Cuneiform, Linux-версия
cuneiform-qt — GUI frontend for Cuneiform OCR
yagf — Оболочка YAGF предоставляет графический интерфейс для консольных программ распознавания тектов cuneiform и tesseract
cuneiform-data — Поддержка различных языков и другие файлы с данными для OCR Cuneiform
0
Национальная библиотека Латвии – крупнейшая в стране, основана в 1919 году
На кдпв изображено новое здание библиотеки, построенное пару лет назад. Так называемый «Замок Света». Не путайте людей, в 1919 у нас такое бы не построили…
0
Правописание довольно сильно поменялось в начале XX века. Сравните третью строчку на третьем скриншоте: «schee wilkahs Schlesijâ eekschâ un gribbeja to» с современным «šie vilkās Šlezijā iekšā un gribēja to» (точнее, Silēzijā, но это уже не про буквы). Если правильно понимаю, в готическом написании гарумзиме ставились только на концах слов в локативе, в середине же обходились добавлением «h» после гласной. В то же время букв со знаками смягчения («ņ», «ķ») в том же тексте полно.
+2
Не мало материалов так же было отредактированно (поправлено) вручную,
сайт-каталог periodika.lv даёт возможность отредактировать оцифрованный материал.
Например самый активный пользователь Aigars Liepiņš сделал 6086 изменения,
а вообще вот топ изменений ссылка
сайт-каталог periodika.lv даёт возможность отредактировать оцифрованный материал.
Например самый активный пользователь Aigars Liepiņš сделал 6086 изменения,
а вообще вот топ изменений ссылка
0
Немало материалов также было отредактированно (поправлено) вручную, сайт-каталог periodika.lv даёт возможность отредактировать оцифрованный материал.
Например самый активный пользователь Aigars Liepiņš сделал 6086 изменения, а вообще вот топ изменений http://periodika.lv/#userTops;content=editors;timeRange=allTime
Например самый активный пользователь Aigars Liepiņš сделал 6086 изменения, а вообще вот топ изменений http://periodika.lv/#userTops;content=editors;timeRange=allTime
+2
А с чуть более современным латышским разбирались? Я оцифровывал несколько документов 40-х годов. Тогда использовались буквы, которых уже нет сейчас и в шрифтах я их не смог найти. К примеру, есть брошюра «ТРИ ГОДА ОТЕЧЕСТВЕННОЙ ВОЙНЫ СОВЕТСКОГО СОЮЗА (военные и политические итоги).» 1944 года на латышском и в ней используется мягкая буква «R» (с запятой под ней, как "Ķ"). Возможно есть шрифты в которых такие буквы можно найти?
+1
Ŗŗ, Ōō ;)
+1
Вообще, ради этих двух букв я как-то раз и сделал letters.ernt.lv. Ну, делал ради этих, но слегка увлёкся…
+2
Эти символы мы распознавать умеем, они есть у нас в языке Latvian Gothic
0
НЛО прилетело и опубликовало эту надпись здесь
А можете дать ссылочку где хорошо описан омнифонтовый классификатор? И ещё про дифференциальный не совсем понял, зона с отличиями для близких символов жёстко прописывается? И что, собственно, дальше с этой зоной делают?
0
В нашем же блоге была пара статей про устройство нашего распознавания.
Первая часть и вторая часть. Вам нужна больше вторая часть. Только омнифонтовый классификатор там назван байесовским, чтобы быть более приближенным к стандартной терминологии.
Про устройство дифференциального классификатора там тоже отдельный раздел, название в этом случае совпадает :)
Первая часть и вторая часть. Вам нужна больше вторая часть. Только омнифонтовый классификатор там назван байесовским, чтобы быть более приближенным к стандартной терминологии.
У нас есть несколько классификаторов, построенных следующим образом: выбираем много (порядка сотни) базовых признаков, собираем из них вектор, объявляем такие вектора нашим пространством признаков и строим на них байесовский классификаторЭто как раз про омнифонтовый классификатор (в самой статье сильно больше написано).
Про устройство дифференциального классификатора там тоже отдельный раздел, название в этом случае совпадает :)
+1
Зарегистрируйтесь на Хабре, чтобы оставить комментарий
Готическое распознавание: как мы помогали оцифровывать Национальную библиотеку Латвии