Обновить

Формула для корейского, или распознаем хангыль быстро, легко и без ошибок

Время на прочтение7 мин
Охват и читатели25K
Всего голосов 57: ↑56 и ↓1+53
Комментарии18

Комментарии 18

Спасибо, интересно. Но по поводу корейского есть несколько замечаний в качестве занудства:

В корейском слоге всё же всегда одна гласная. То, что вы подразумеваете под двумя — дифтонги типа 왜. Такое правильнее считать одной буквой ㅙ, нежели двумя — ㅗ и ㅐ. Не уверена, что это сделает решение проще и лучше, но всё же.

Сдвоенные согласные — ㅃ, ㅉ, ㄸ, ㄲ, ㅆ — это тоже отдельные буквы (не две ㅂ, а одна ㅃ).

а Cf — финальная согласная (тоже может быть сдвоенной)
Из сдвоенных в конце слога может стоять только ㄲ или ㅆ. Зато есть варианты с двумя буквами — ㅄ, ㄾ, ㄺ, ㄻ и т. п. (возможны не все сочетания). И это именно две разные буквы в конце слога, а не одна сдвоенная.
Я даже задумался, а надо ли вкладывать в системы распознования текста знание языковых норм? В том смысле что распознаваемый текст это не всегда человеческий язык, а иногда это может быть например маркировка, код продукта? Не сработает ли это знание в обратную сторону?
«Знание языковых норм» это достаточно громко сказано. Просто особенности письменности. Корейские буквы всегда формируются в слоги, даже сходу не придумать, где бы могли использоваться оторванные от слога корейские буквы или невалидные слоги. Разве что эмодзи типа ㅜ_ㅜ.
Из сдвоенных в конце слога может стоять только ㄲ или ㅆ. Зато есть варианты с двумя буквами — ㅄ, ㄾ, ㄺ, ㄻ и т. п. (возможны не все сочетания). И это именно две разные буквы в конце слога, а не одна сдвоенная.

Собственно, на КДПВ именно такое сочетание двух разных согласных и замыкает первый слог под зайцем, мечтающим о морковке (굶주림).
В свете этого — очень интересно, сможет ли запатентованный авторский алгоритм распознать текст на самой этой КДПВ, раз он ожидает в конце слога только сдвоенные согласные.
Сеть знает про все возможные замыкающие буквы слога: одинарные, сдвоенные и диграфы, поэтому это слово распознаётся без ошибок. Более того, наш алгоритм способен распознать все 11172 символа, которые могут быть в корейском языке.
НЛО прилетело и опубликовало эту надпись здесь

Интересно, что именно стало объектом патентования: анализ хангыля приемами для алфавитного письма? Если да, то патент ничтожен. Потому что хангыль – это фонематическое письмо, а не иероглифическое.

В патенте у вас явная неточность:


Базовым изображением в CJK* языках является иероглиф (т.е. стилизованное изображение символа, фразы, слова, буквы, слога, звука и т.д.)

  • CJK – Chinese Japanese Korean (прим. Rumkin)

Базовым символом в корейском является не иероглиф, а слог. Патент явно прошел некачественную проверку специалистами.

Проверка качественная, если я правильно понял, то патент покрывает
РАСПОЗНАВАНИЕ СИМВОЛОВ С ИСПОЛЬЗОВАНИЕМ ИСКУССТВЕННОГО ИНТЕЛЛЕКТА
Т.е. вообще практически всё, что можно к этому свести :)

В такой трактовке – да. Осталось запантентовать разбиение задачи на подзадачи, ограничение предметной области и другие методы оптимизации.


В США пытаются бороться с патентами вида "делать что-то с помощью компьютера". И даже успешно. Хотя процесс идет достаточно медленно, говорят, что из-за нового главы ведомства. Интересно, что будет в данном случае.

Поскольку ABBYY уже имеет опыт работы с патентными троллями, например www.abbyy.com/en-eu/news/abbyy-wins-patent-infringement-lawsuit-against-nuance/#sthash.YVhaHwpb.dpbs, лучше перебдеть с патентами чем недобдеть :)

Согласен, что от патентных троллей лучше защищаться заранее. Но, во-первых, какова цель упоминания патента в статье? А, во-вторых, делаешь защитный патент – переводи в общественное достояние (public property), незачем ограничивать других разработчиков своим патентом, если настоящая цель – защита.

В корейском алфавите 19 гласных (включая дифтонги) и 19 согласных. Все «иероглифы» — это комбинации этих букв по правилам корейского языка. Например, один слог («иероглиф») не может содержать подряд две гласных на первой или второй позиции, количество букв в слоге — от 2 до 5 с ограничением по сочетаниям даже согласных с гласными.

Поэтому когда вы написали про 3000 иероглфов, сложилось впечатление, что вы перепутали с китайским. Все корейские слоги (единицы записи) — из ограниченного набора. Кстати, они все перечислены в кодировке.
Я нигде не писал про 3000 иероглифов, только про 3000 символов. В это множество могут входить блоки хангыля, европейские символы или китайские иероглифы, в зависимости от задачи.
набор китайских иероглифов, который является корейской письменностью («ханча») тоже очень ограничен — и это по сути тоже алфавит, бОльший по разнообразию, но используемый исключительно для звуковой записи корейских слов (вроде транслита).

Что же касается _всех_ символов, составляющих сообщение в Корее (не обязательно корейский язык) — то он конечно включает почти все, что может быть написано, как числа, китайские и латинские слова, эмоджи, знаки препинания… Но это уже отдельная задача, слабо связанная с распознаванием хангыля :)
используемый исключительно для звуковой записи корейских слов (вроде транслита)
Принцип записи слов с помощью ханча на транслит совсем не похож.

Вроде бы и понятно, что вы хотите сказать, но в терминологии у вас просто каша. Простите, но складывается впечатление, что вы не особенно глубоко разбираетесь в вопросе.
конечно я не глубоко разбираюсь в лингвистических вопросах. Просто личный опыт нескольких лет в стране, причем для работы корейский язык не требовался.

Просто фраза «проблема в количестве символов: 3000, скорее всего, хватит чтобы, например, отличить в меню ресторана стейк от жареного морского огурца, но порой встречаются и более сложные тексты» показала, что автор, кажется, не понимает самого принципа алфавитной записи. Либо понимаешь ВЕСЬ алфавит и можешь прочитать (прочитать != понять) текст любой сложности, либо знаешь НЕ ВЕСЬ алфавит и не можешь прочитать почти ничего (кроме слов, не содержащих неизвестную тебе букву)
Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Информация

Сайт
www.contentai.ru
Дата регистрации
Дата основания
Численность
101–200 человек
Местоположение
Россия