Комментарии 3
Нейронная сеть выдает целые строки.
Полученная на основе MSER картинка-строка подается на вход сети целиком. В сверточных блоках вычисляются признаки, которые в виде последовательности подаются на вход LSTM. На выходе LSTM + CTC после декодирования получаем последовательность символов, которые объединяются в выходную строку.
Полученная на основе MSER картинка-строка подается на вход сети целиком. В сверточных блоках вычисляются признаки, которые в виде последовательности подаются на вход LSTM. На выходе LSTM + CTC после декодирования получаем последовательность символов, которые объединяются в выходную строку.
Интересно было б с AWS Textract сравнить
Зарегистрируйтесь на Хабре, чтобы оставить комментарий
OCR-конвейер для обработки документов