Comments 26
Очень плохо так делать: заинтересовать картинкой и не показать
+47
Молодцы, но вот гложет вопрос. Не могу не спросить. Сколько ненормативных выражений выучила проектная команда? :)
+1
Если честно, команда такая интеллигентная, что я стесняюсь спрашивать :)
Вот вам в качестве компенсации тот самый комикс с переводом на русский. Он тоже хорош
Вот вам в качестве компенсации тот самый комикс с переводом на русский. Он тоже хорош
+11
Сиськи!
-3
монголы вроде с 1941 года и до сих пор кириллицу используют…
-1
Во Внутренней Монголии (автономный край в составе Китая) до сих пор вроде продолжают использовать старомонгольское письмо.
0
Теперь уже и в независимой Монголии переходят с кириллицы на (старо)монгольское письмо.
Вот, например, монгольские тугрики выпуска 2002 г.: ни буквы кириллицей.
Вот, например, монгольские тугрики выпуска 2002 г.: ни буквы кириллицей.
0
Спасибо за материал!
Вот стало интересно: а можно ли узнать частоту появления лигатур в языке и при формировании базовой линии модифицировать ее положение исходя из просчитанных значений (текущей базовой линии) + потенциальных появлений лигатур в тексте? Скорректировав таким образом изначальную базовую линию…
Вот стало интересно: а можно ли узнать частоту появления лигатур в языке и при формировании базовой линии модифицировать ее положение исходя из просчитанных значений (текущей базовой линии) + потенциальных появлений лигатур в тексте? Скорректировав таким образом изначальную базовую линию…
+2
Универсальный механизм коррекции базовой линии в зависимости от количества лигатур ( если понимать под лигатурой основной символ + диакритика ) настроить довольно проблематично, потому, что часть лигатуры, которая располагается ниже базовой линии бывает очень разная по форме и размерам. Например, для вьетнамского языка это только точка под основным символом и корректировать базовую линию для вьетнамского не надо. Проще настроить механизм для каждого языка отдельно.
+2
Большое спасибо, очень интересно!
Как то раз мне пришлось немного углубится в бирманский т.к. преподавал у группы студентов от туда.
Главная трудность была, что они не понимали русскую интонацию вопросительного приложения, по этому я стал разбираться как обозначается вопросительные приложения на бирманском. Нашёл одну частичку, которую произносил в конце приложения и вроде все сразу всё понимали.
Как то раз мне пришлось немного углубится в бирманский т.к. преподавал у группы студентов от туда.
Главная трудность была, что они не понимали русскую интонацию вопросительного приложения, по этому я стал разбираться как обозначается вопросительные приложения на бирманском. Нашёл одну частичку, которую произносил в конце приложения и вроде все сразу всё понимали.
+1
А как на бирманском обозначается время?
Например 23:45 или там 7:40? Просто по приколу делаю часы с выводом на разных цифровых обозначениях, на арабский перевел без проблем а вот с восточными языками сложнее.
Например 23:45 или там 7:40? Просто по приколу делаю часы с выводом на разных цифровых обозначениях, на арабский перевел без проблем а вот с восточными языками сложнее.
0
Спасибо за интересный рассказ!
Скажите, а планируете ли вы научить ваш OCR самостоятельно определять язык, на котором написан документ? Если я правильно понимаю, я сейчас подсуну Fine Reader текст на бирманском для распознавания, я должен вручную указать «бирманский» в списке языков. Даже если взять распространённые языки: английский, немецкий, французский, русский и т.д. — в облачном Fine Reader мне постоянно приходится самому выбирать язык, на котором написан распознаваемый документ. Причём, самая засада с немецким — когда я точно не уверен, новая орфография используется в тексте или старая.
Думаю, в 2015 году технологически уже не так сложно реализовать автоматическое определение языка и снизить количество действий пользователя (+ облегчить интерфейс).
Скажите, а планируете ли вы научить ваш OCR самостоятельно определять язык, на котором написан документ? Если я правильно понимаю, я сейчас подсуну Fine Reader текст на бирманском для распознавания, я должен вручную указать «бирманский» в списке языков. Даже если взять распространённые языки: английский, немецкий, французский, русский и т.д. — в облачном Fine Reader мне постоянно приходится самому выбирать язык, на котором написан распознаваемый документ. Причём, самая засада с немецким — когда я точно не уверен, новая орфография используется в тексте или старая.
Думаю, в 2015 году технологически уже не так сложно реализовать автоматическое определение языка и снизить количество действий пользователя (+ облегчить интерфейс).
0
Хороший вопрос =) Строго говоря, автодетект языков в файне есть и очень давно. Проблема только в том, что эффективно он работает на довольно ограниченном наборе, примерно 6-8 языков… Если больше, то сильно страдает скорость и качество определения. На FineReaderOnline мы ограничили автовыбор до 3-х языков, чтобы не перегружать интерфейс и не сильно загружать сервер.
До недавнего времени, на практике этого было достаточно, чтобы мы не вкладывались в разработку полноценного автодетекта, всегда есть более интересные области, куда имеет смысл приложить усилия. Однако недавно стали приходить запросы на полноценное автоопределение, так что _возможно_ через некоторое время мы это поддержим.
До недавнего времени, на практике этого было достаточно, чтобы мы не вкладывались в разработку полноценного автодетекта, всегда есть более интересные области, куда имеет смысл приложить усилия. Однако недавно стали приходить запросы на полноценное автоопределение, так что _возможно_ через некоторое время мы это поддержим.
0
спасибо за ответ! если честно, ни разу не пользовался десктопной версией, но давно пользуюсь облачной (хорошо бы ещё страницы не сгорали там со временем).
А что если реализовать распознавание языка через семплирование? Например, брать по фразе из нескольких мест текста в зависимости от размера файла и, пока пользователь настраивает то, куда ему лучше экспортнуть файл (мой фич-реквест на экспорт в яндекс.диск, видимо заигнорили) и в каком формате, автоматически определять язык. А уж затем распознавать с учётом определённого языка.
А что если реализовать распознавание языка через семплирование? Например, брать по фразе из нескольких мест текста в зависимости от размера файла и, пока пользователь настраивает то, куда ему лучше экспортнуть файл (мой фич-реквест на экспорт в яндекс.диск, видимо заигнорили) и в каком формате, автоматически определять язык. А уж затем распознавать с учётом определённого языка.
0
Не все так просто — чтобы взять даже несколько кусочков текста, нужно провести полноценный анализ документа, чтобы хотя бы определить где там текст… С другой стороны — языки в комбиках подставляются на основе данных из браузера и это закрывает процентов 80 сценариев, так как в большинстве случаев пользователи распознают документы на родном языке (и на английском)
Так что вряд ли такие сложности имеют смысл.
Так что вряд ли такие сложности имеют смысл.
0
не туда
0
Sign up to leave a comment.
Распознавание бирманского языка: теперь мы умеем даже это