Pull to refresh

Comments 26

Я зашёл в топик ради этого комментария!
Я верила в читателей и не ошиблась :)
Молодцы, но вот гложет вопрос. Не могу не спросить. Сколько ненормативных выражений выучила проектная команда? :)
Если честно, команда такая интеллигентная, что я стесняюсь спрашивать :)

Вот вам в качестве компенсации тот самый комикс с переводом на русский. Он тоже хорош

image
С японским не так всё просто. Японцы то для корней слов юзают кандзи — это такая же «хитроумная хрень, которая атакует здания» как у китайцев, у них же и позаимствованная.
Интересно, а кто-то уже попробовал распознать текст на бирманском из комикса?
Это же от руки написано. Может ничегошеньки не распознаться :)
Так там же перевод выше есть, на русском )
монголы вроде с 1941 года и до сих пор кириллицу используют…
Во Внутренней Монголии (автономный край в составе Китая) до сих пор вроде продолжают использовать старомонгольское письмо.
Теперь уже и в независимой Монголии переходят с кириллицы на (старо)монгольское письмо.

Вот, например, монгольские тугрики выпуска 2002 г.: ни буквы кириллицей.

Да, действительно, старомонгольский алфавит стали плавно возвращать.
Но вы «наполовину» ошибаетесь, вся обратная сторона этой банкноты на кириллице.
image
Спасибо за материал!
Вот стало интересно: а можно ли узнать частоту появления лигатур в языке и при формировании базовой линии модифицировать ее положение исходя из просчитанных значений (текущей базовой линии) + потенциальных появлений лигатур в тексте? Скорректировав таким образом изначальную базовую линию…
Универсальный механизм коррекции базовой линии в зависимости от количества лигатур ( если понимать под лигатурой основной символ + диакритика ) настроить довольно проблематично, потому, что часть лигатуры, которая располагается ниже базовой линии бывает очень разная по форме и размерам. Например, для вьетнамского языка это только точка под основным символом и корректировать базовую линию для вьетнамского не надо. Проще настроить механизм для каждого языка отдельно.
Большое спасибо, очень интересно!
Как то раз мне пришлось немного углубится в бирманский т.к. преподавал у группы студентов от туда.
Главная трудность была, что они не понимали русскую интонацию вопросительного приложения, по этому я стал разбираться как обозначается вопросительные приложения на бирманском. Нашёл одну частичку, которую произносил в конце приложения и вроде все сразу всё понимали.
А как на бирманском обозначается время?
Например 23:45 или там 7:40? Просто по приколу делаю часы с выводом на разных цифровых обозначениях, на арабский перевел без проблем а вот с восточными языками сложнее.
Спасибо за интересный рассказ!
Скажите, а планируете ли вы научить ваш OCR самостоятельно определять язык, на котором написан документ? Если я правильно понимаю, я сейчас подсуну Fine Reader текст на бирманском для распознавания, я должен вручную указать «бирманский» в списке языков. Даже если взять распространённые языки: английский, немецкий, французский, русский и т.д. — в облачном Fine Reader мне постоянно приходится самому выбирать язык, на котором написан распознаваемый документ. Причём, самая засада с немецким — когда я точно не уверен, новая орфография используется в тексте или старая.
Думаю, в 2015 году технологически уже не так сложно реализовать автоматическое определение языка и снизить количество действий пользователя (+ облегчить интерфейс).
Хороший вопрос =) Строго говоря, автодетект языков в файне есть и очень давно. Проблема только в том, что эффективно он работает на довольно ограниченном наборе, примерно 6-8 языков… Если больше, то сильно страдает скорость и качество определения. На FineReaderOnline мы ограничили автовыбор до 3-х языков, чтобы не перегружать интерфейс и не сильно загружать сервер.
До недавнего времени, на практике этого было достаточно, чтобы мы не вкладывались в разработку полноценного автодетекта, всегда есть более интересные области, куда имеет смысл приложить усилия. Однако недавно стали приходить запросы на полноценное автоопределение, так что _возможно_ через некоторое время мы это поддержим.
спасибо за ответ! если честно, ни разу не пользовался десктопной версией, но давно пользуюсь облачной (хорошо бы ещё страницы не сгорали там со временем).
А что если реализовать распознавание языка через семплирование? Например, брать по фразе из нескольких мест текста в зависимости от размера файла и, пока пользователь настраивает то, куда ему лучше экспортнуть файл (мой фич-реквест на экспорт в яндекс.диск, видимо заигнорили) и в каком формате, автоматически определять язык. А уж затем распознавать с учётом определённого языка.
Не все так просто — чтобы взять даже несколько кусочков текста, нужно провести полноценный анализ документа, чтобы хотя бы определить где там текст… С другой стороны — языки в комбиках подставляются на основе данных из браузера и это закрывает процентов 80 сценариев, так как в большинстве случаев пользователи распознают документы на родном языке (и на английском)
Так что вряд ли такие сложности имеют смысл.
Sign up to leave a comment.