Комментарии 18
Спасибо, интересно. Но по поводу корейского есть несколько замечаний в качестве занудства:
В корейском слоге всё же всегда одна гласная. То, что вы подразумеваете под двумя — дифтонги типа 왜. Такое правильнее считать одной буквой ㅙ, нежели двумя — ㅗ и ㅐ. Не уверена, что это сделает решение проще и лучше, но всё же.
Сдвоенные согласные — ㅃ, ㅉ, ㄸ, ㄲ, ㅆ — это тоже отдельные буквы (не две ㅂ, а одна ㅃ).
В корейском слоге всё же всегда одна гласная. То, что вы подразумеваете под двумя — дифтонги типа 왜. Такое правильнее считать одной буквой ㅙ, нежели двумя — ㅗ и ㅐ. Не уверена, что это сделает решение проще и лучше, но всё же.
Сдвоенные согласные — ㅃ, ㅉ, ㄸ, ㄲ, ㅆ — это тоже отдельные буквы (не две ㅂ, а одна ㅃ).
а Cf — финальная согласная (тоже может быть сдвоенной)Из сдвоенных в конце слога может стоять только ㄲ или ㅆ. Зато есть варианты с двумя буквами — ㅄ, ㄾ, ㄺ, ㄻ и т. п. (возможны не все сочетания). И это именно две разные буквы в конце слога, а не одна сдвоенная.
Я даже задумался, а надо ли вкладывать в системы распознования текста знание языковых норм? В том смысле что распознаваемый текст это не всегда человеческий язык, а иногда это может быть например маркировка, код продукта? Не сработает ли это знание в обратную сторону?
Из сдвоенных в конце слога может стоять только ㄲ или ㅆ. Зато есть варианты с двумя буквами — ㅄ, ㄾ, ㄺ, ㄻ и т. п. (возможны не все сочетания). И это именно две разные буквы в конце слога, а не одна сдвоенная.
Собственно, на КДПВ именно такое сочетание двух разных согласных и замыкает первый слог под зайцем, мечтающим о морковке (굶주림).
В свете этого — очень интересно, сможет ли запатентованный авторский алгоритм распознать текст на самой этой КДПВ, раз он ожидает в конце слога только сдвоенные согласные.
Интересно, что именно стало объектом патентования: анализ хангыля приемами для алфавитного письма? Если да, то патент ничтожен. Потому что хангыль – это фонематическое письмо, а не иероглифическое.
В патенте у вас явная неточность:
Базовым изображением в CJK* языках является иероглиф (т.е. стилизованное изображение символа, фразы, слова, буквы, слога, звука и т.д.)
- CJK – Chinese Japanese Korean (прим. Rumkin)
Базовым символом в корейском является не иероглиф, а слог. Патент явно прошел некачественную проверку специалистами.
Проверка качественная, если я правильно понял, то патент покрывает
РАСПОЗНАВАНИЕ СИМВОЛОВ С ИСПОЛЬЗОВАНИЕМ ИСКУССТВЕННОГО ИНТЕЛЛЕКТА
Т.е. вообще практически всё, что можно к этому свести :)
РАСПОЗНАВАНИЕ СИМВОЛОВ С ИСПОЛЬЗОВАНИЕМ ИСКУССТВЕННОГО ИНТЕЛЛЕКТА
Т.е. вообще практически всё, что можно к этому свести :)
В такой трактовке – да. Осталось запантентовать разбиение задачи на подзадачи, ограничение предметной области и другие методы оптимизации.
В США пытаются бороться с патентами вида "делать что-то с помощью компьютера". И даже успешно. Хотя процесс идет достаточно медленно, говорят, что из-за нового главы ведомства. Интересно, что будет в данном случае.
Поскольку ABBYY уже имеет опыт работы с патентными троллями, например www.abbyy.com/en-eu/news/abbyy-wins-patent-infringement-lawsuit-against-nuance/#sthash.YVhaHwpb.dpbs, лучше перебдеть с патентами чем недобдеть :)
В корейском алфавите 19 гласных (включая дифтонги) и 19 согласных. Все «иероглифы» — это комбинации этих букв по правилам корейского языка. Например, один слог («иероглиф») не может содержать подряд две гласных на первой или второй позиции, количество букв в слоге — от 2 до 5 с ограничением по сочетаниям даже согласных с гласными.
Поэтому когда вы написали про 3000 иероглфов, сложилось впечатление, что вы перепутали с китайским. Все корейские слоги (единицы записи) — из ограниченного набора. Кстати, они все перечислены в кодировке.
Поэтому когда вы написали про 3000 иероглфов, сложилось впечатление, что вы перепутали с китайским. Все корейские слоги (единицы записи) — из ограниченного набора. Кстати, они все перечислены в кодировке.
Я нигде не писал про 3000 иероглифов, только про 3000 символов. В это множество могут входить блоки хангыля, европейские символы или китайские иероглифы, в зависимости от задачи.
набор китайских иероглифов, который является корейской письменностью («ханча») тоже очень ограничен — и это по сути тоже алфавит, бОльший по разнообразию, но используемый исключительно для звуковой записи корейских слов (вроде транслита).
Что же касается _всех_ символов, составляющих сообщение в Корее (не обязательно корейский язык) — то он конечно включает почти все, что может быть написано, как числа, китайские и латинские слова, эмоджи, знаки препинания… Но это уже отдельная задача, слабо связанная с распознаванием хангыля :)
Что же касается _всех_ символов, составляющих сообщение в Корее (не обязательно корейский язык) — то он конечно включает почти все, что может быть написано, как числа, китайские и латинские слова, эмоджи, знаки препинания… Но это уже отдельная задача, слабо связанная с распознаванием хангыля :)
используемый исключительно для звуковой записи корейских слов (вроде транслита)Принцип записи слов с помощью ханча на транслит совсем не похож.
Вроде бы и понятно, что вы хотите сказать, но в терминологии у вас просто каша. Простите, но складывается впечатление, что вы не особенно глубоко разбираетесь в вопросе.
конечно я не глубоко разбираюсь в лингвистических вопросах. Просто личный опыт нескольких лет в стране, причем для работы корейский язык не требовался.
Просто фраза «проблема в количестве символов: 3000, скорее всего, хватит чтобы, например, отличить в меню ресторана стейк от жареного морского огурца, но порой встречаются и более сложные тексты» показала, что автор, кажется, не понимает самого принципа алфавитной записи. Либо понимаешь ВЕСЬ алфавит и можешь прочитать (прочитать != понять) текст любой сложности, либо знаешь НЕ ВЕСЬ алфавит и не можешь прочитать почти ничего (кроме слов, не содержащих неизвестную тебе букву)
Просто фраза «проблема в количестве символов: 3000, скорее всего, хватит чтобы, например, отличить в меню ресторана стейк от жареного морского огурца, но порой встречаются и более сложные тексты» показала, что автор, кажется, не понимает самого принципа алфавитной записи. Либо понимаешь ВЕСЬ алфавит и можешь прочитать (прочитать != понять) текст любой сложности, либо знаешь НЕ ВЕСЬ алфавит и не можешь прочитать почти ничего (кроме слов, не содержащих неизвестную тебе букву)
промахнулся веткой, del
Зарегистрируйтесь на Хабре, чтобы оставить комментарий
Формула для корейского, или распознаем хангыль быстро, легко и без ошибок