@CyberLympha7 мар 2023 в 07:47

Снова о распознавании рукописного текста, на этот раз с помощью CRNN

5 мин

17K

Машинное обучение *

Cезон machine learning

Комментарии 7

@kovserg 7 мар 2023 в 09:20

Круто. А с таким справится?

@GeorgeAivazov 7 мар 2023 в 10:38

На фармацевта идёшь?

@mx_sdk 11 мар 2023 в 23:07

С таким и не каждый человек справится...

@dmitryvolochaev 7 мар 2023 в 11:10

А вот такое есть в вашем датасете?

@CyberLympha 10 апр 2023 в 05:56

Добрый день, Дмитрий.
Мы обновили блокнот и добавили два дополнительных теста. К сожалению, возникли трудности с бинаризацией текста с вашего примера. Возникли они по двум причинам:

Центр изображения в фокусе камеры, а края – нет.
Присутствует клетка. Мы подготовили схожий пример на листе белой бумаги и отсканировали его. Как мы видим, модель находит схожие паттерны у букв «Л» и «М» и из-за этого ошибается на них.

@dmitryvolochaev 10 апр 2023 в 06:20

Круто, что вы этим занимаетесь. Я понимаю, что если пытаться распознавать отдельные буквы вне контекста, то вы никогда не различите на письме сочетания "ши" и "иш", например. Но ведь LSTM работает со всей строкой целиком. Я правильно понимаю? Т.е. эта модель знает слова, а не только буквы?

@CyberLympha 13 апр 2023 в 06:12

LSTM работает не со строкой и ее элементами, она работает с последовательностью векторов признаков для каждого из кусочков изображения вдоль слова, полученных из сверточной части сети. Соответственно, одному символу в выходной последовательности может соответствовать один или несколько таких векторов. Каждый вектор классифицируется как символ (позже на этапе декодирования избавляемся от дублей), при классификации i-го вектора блок внутри LSTM получает информацию с предыдущих блоков, то, как эту информацию использовать, решает сама сеть с помощью т.н. "forget gate", соответственно, то насколько далеко LSTM "смотрит назад" определяет она сама, в том и прелесть нейронных сетей.
Итого: сеть может думать, как буквами и их сочетаниями, так и словами. Возможно, получится залезть в веса, отвечающие за "степень забывания" предыдущих элементов последовательности и выяснить, насколько далеко "в прошлое" сеть учитывает предыдущие элементы входной последовательности.
Вот хорошая статья, о том, как работает LSTM, механизм забывания там достойно описан: https://habr.com/ru/companies/wunderfund/articles/331310/

Зарегистрируйтесь на Хабре, чтобы оставить комментарий