luciana Dec 1 2015 at 10:06

Распознавание бирманского языка: теперь мы умеем даже это

6 min

24K

Content AI corporate blogProgramming*Image processing*

+60

Comments 26

IamKarlson Dec 1 2015 at 10:57

Очень плохо так делать: заинтересовать картинкой и не показать

+47

poxvuibr Dec 1 2015 at 11:03

Я зашёл в топик ради этого комментария!

+11

luciana Dec 1 2015 at 11:41

Я верила в читателей и не ошиблась :)

+10

RZimin Dec 1 2015 at 13:20

Молодцы, но вот гложет вопрос. Не могу не спросить. Сколько ненормативных выражений выучила проектная команда? :)

luciana Dec 1 2015 at 13:37

Если честно, команда такая интеллигентная, что я стесняюсь спрашивать :)

Вот вам в качестве компенсации тот самый комикс с переводом на русский. Он тоже хорош

+11

madkite Dec 1 2015 at 17:50

С японским не так всё просто. Японцы то для корней слов юзают кандзи — это такая же «хитроумная хрень, которая атакует здания» как у китайцев, у них же и позаимствованная.

habraslon Dec 1 2015 at 20:41

Да, он прекрасен )

RZimin Dec 2 2015 at 09:13

Интересно, а кто-то уже попробовал распознать текст на бирманском из комикса?

luciana Dec 2 2015 at 10:23

Это же от руки написано. Может ничегошеньки не распознаться :)

habraslon Dec 2 2015 at 17:54

Так там же перевод выше есть, на русском )

Error_403_Forbidden Dec 1 2015 at 14:37

Сиськи!

-3

safari2012 Dec 1 2015 at 14:49

монголы вроде с 1941 года и до сих пор кириллицу используют…

-1

madkite Dec 1 2015 at 16:36

Во Внутренней Монголии (автономный край в составе Китая) до сих пор вроде продолжают использовать старомонгольское письмо.

tyomitch Dec 2 2015 at 00:48

Теперь уже и в независимой Монголии переходят с кириллицы на (старо)монгольское письмо.

Вот, например, монгольские тугрики выпуска 2002 г.: ни буквы кириллицей.

safari2012 Dec 2 2015 at 14:29

Да, действительно, старомонгольский алфавит стали плавно возвращать.
Но вы «наполовину» ошибаетесь, вся обратная сторона этой банкноты на кириллице.

safari2012 Dec 2 2015 at 14:31

вот современные монеты

TheTony Dec 2 2015 at 09:05

Спасибо за материал!
Вот стало интересно: а можно ли узнать частоту появления лигатур в языке и при формировании базовой линии модифицировать ее положение исходя из просчитанных значений (текущей базовой линии) + потенциальных появлений лигатур в тексте? Скорректировав таким образом изначальную базовую линию…

luciana Dec 2 2015 at 11:08

Универсальный механизм коррекции базовой линии в зависимости от количества лигатур ( если понимать под лигатурой основной символ + диакритика ) настроить довольно проблематично, потому, что часть лигатуры, которая располагается ниже базовой линии бывает очень разная по форме и размерам. Например, для вьетнамского языка это только точка под основным символом и корректировать базовую линию для вьетнамского не надо. Проще настроить механизм для каждого языка отдельно.

stalkerg Dec 8 2015 at 11:48

Большое спасибо, очень интересно!
Как то раз мне пришлось немного углубится в бирманский т.к. преподавал у группы студентов от туда.
Главная трудность была, что они не понимали русскую интонацию вопросительного приложения, по этому я стал разбираться как обозначается вопросительные приложения на бирманском. Нашёл одну частичку, которую произносил в конце приложения и вроде все сразу всё понимали.

San66 Dec 8 2015 at 23:34

А как на бирманском обозначается время?
Например 23:45 или там 7:40? Просто по приколу делаю часы с выводом на разных цифровых обозначениях, на арабский перевел без проблем а вот с восточными языками сложнее.

luciana Dec 10 2015 at 16:50

Время мы не изучали )

scalywhale Dec 22 2015 at 13:05

Спасибо за интересный рассказ!
Скажите, а планируете ли вы научить ваш OCR самостоятельно определять язык, на котором написан документ? Если я правильно понимаю, я сейчас подсуну Fine Reader текст на бирманском для распознавания, я должен вручную указать «бирманский» в списке языков. Даже если взять распространённые языки: английский, немецкий, французский, русский и т.д. — в облачном Fine Reader мне постоянно приходится самому выбирать язык, на котором написан распознаваемый документ. Причём, самая засада с немецким — когда я точно не уверен, новая орфография используется в тексте или старая.
Думаю, в 2015 году технологически уже не так сложно реализовать автоматическое определение языка и снизить количество действий пользователя (+ облегчить интерфейс).

IBB4 Dec 23 2015 at 15:49

Хороший вопрос =) Строго говоря, автодетект языков в файне есть и очень давно. Проблема только в том, что эффективно он работает на довольно ограниченном наборе, примерно 6-8 языков… Если больше, то сильно страдает скорость и качество определения. На FineReaderOnline мы ограничили автовыбор до 3-х языков, чтобы не перегружать интерфейс и не сильно загружать сервер.
До недавнего времени, на практике этого было достаточно, чтобы мы не вкладывались в разработку полноценного автодетекта, всегда есть более интересные области, куда имеет смысл приложить усилия. Однако недавно стали приходить запросы на полноценное автоопределение, так что _возможно_ через некоторое время мы это поддержим.

scalywhale Dec 23 2015 at 16:22

спасибо за ответ! если честно, ни разу не пользовался десктопной версией, но давно пользуюсь облачной (хорошо бы ещё страницы не сгорали там со временем).
А что если реализовать распознавание языка через семплирование? Например, брать по фразе из нескольких мест текста в зависимости от размера файла и, пока пользователь настраивает то, куда ему лучше экспортнуть файл (мой фич-реквест на экспорт в яндекс.диск, видимо заигнорили) и в каком формате, автоматически определять язык. А уж затем распознавать с учётом определённого языка.

IBB4 Dec 23 2015 at 21:48

Не все так просто — чтобы взять даже несколько кусочков текста, нужно провести полноценный анализ документа, чтобы хотя бы определить где там текст… С другой стороны — языки в комбиках подставляются на основе данных из браузера и это закрывает процентов 80 сценариев, так как в большинстве случаев пользователи распознают документы на родном языке (и на английском)
Так что вряд ли такие сложности имеют смысл.

IBB4 Dec 23 2015 at 21:47

не туда