Комментарии 11
Классно. Но сразу возникает ряд вопросов:
1) Вся база — сделана на одном и том же столе? Если будут меняться внешние условия: направление освещения, углы наклона, и.т.д. всё продолжает работать?
2) Обучались на символы по какой базе? По тем же самым 750 фотографиям, или по другой?
3) Шрифты у всех банков одинаковые? Не нашлось ли кого-то, кто хотел выпендириться?
4) Горизонтальные и вертикальные фильтры это хорошо, я сам люблю их применять для похожих задач. Но как только имеется высокочастотный фон (вот смотрю на свою карточку Тинькова), то сразу весь этот подход рушиться. Как удалось разрешить такие ситуации?
5) На csv код обученный алгоритм не работает? Как я понимаю там-то у всех банков точно разные шрифты.
Буду ждать статьи про обучение свёрточных сетей. Любопытно как вы решали там несколько проблем.
Хотя, конечно, у меня есть мнение, что когда в задаче реально сделать хорошую сегментацию, то всё остальное уже просто реализуется любым другим способом. Хоть SVM, хоть корреляцией:)
1) Вся база — сделана на одном и том же столе? Если будут меняться внешние условия: направление освещения, углы наклона, и.т.д. всё продолжает работать?
2) Обучались на символы по какой базе? По тем же самым 750 фотографиям, или по другой?
3) Шрифты у всех банков одинаковые? Не нашлось ли кого-то, кто хотел выпендириться?
4) Горизонтальные и вертикальные фильтры это хорошо, я сам люблю их применять для похожих задач. Но как только имеется высокочастотный фон (вот смотрю на свою карточку Тинькова), то сразу весь этот подход рушиться. Как удалось разрешить такие ситуации?
5) На csv код обученный алгоритм не работает? Как я понимаю там-то у всех банков точно разные шрифты.
Буду ждать статьи про обучение свёрточных сетей. Любопытно как вы решали там несколько проблем.
Хотя, конечно, у меня есть мнение, что когда в задаче реально сделать хорошую сегментацию, то всё остальное уже просто реализуется любым другим способом. Хоть SVM, хоть корреляцией:)
Спасибо за интересные вопросы! Ниже ответы по пунктам:
1) База сделана в различных условиях. Менялись устройства, освещение, снимали разные люди (иногда даже пальцы на картах присутствуют). При этом в основном снимали карточку «на весу», стол использовали в основном для получения рекламных фотографий.
2) Обучение свёрточных сетей производилось на искусственно созданной базе изображений (благо целевой шрифт известен – OCR-B) с последующей аугментацией. Ни одно изображение из упомянутых 750 картинок не использовалась для обучения.
3) Шрифт на картах один (OCR-B) и места для творчества платежные системы здесь не предоставляют. Фон придумывает банк. Было замечено использование OCR-A шрифта на indent-картах некоторых банков. Но для нас не проблема, так как мы используем искусственно созданную обучающую выборку.
4) Пестрый высокочастотный фон действительно создает дополнительные трудности. В этом месте нас спасает тот факт, что алгоритм поиска анализирует изображение границ, зная, что ищется три геометрически описанных строки. Такая задача похожа чем-то с распознаванием у окулиста цветных зашумленных карточек с цифрами: без знания того, что на карточках цифры распознать на них что-то разумное проблематично.
5) В настоящий момент наше SDK не распознает CSV код. При этом понимаем, что эта задача представляет собой omni-шрифтовое распознавание текстовой строки, которое у нас имплементировано.
1) База сделана в различных условиях. Менялись устройства, освещение, снимали разные люди (иногда даже пальцы на картах присутствуют). При этом в основном снимали карточку «на весу», стол использовали в основном для получения рекламных фотографий.
2) Обучение свёрточных сетей производилось на искусственно созданной базе изображений (благо целевой шрифт известен – OCR-B) с последующей аугментацией. Ни одно изображение из упомянутых 750 картинок не использовалась для обучения.
3) Шрифт на картах один (OCR-B) и места для творчества платежные системы здесь не предоставляют. Фон придумывает банк. Было замечено использование OCR-A шрифта на indent-картах некоторых банков. Но для нас не проблема, так как мы используем искусственно созданную обучающую выборку.
4) Пестрый высокочастотный фон действительно создает дополнительные трудности. В этом месте нас спасает тот факт, что алгоритм поиска анализирует изображение границ, зная, что ищется три геометрически описанных строки. Такая задача похожа чем-то с распознаванием у окулиста цветных зашумленных карточек с цифрами: без знания того, что на карточках цифры распознать на них что-то разумное проблематично.
5) В настоящий момент наше SDK не распознает CSV код. При этом понимаем, что эта задача представляет собой omni-шрифтовое распознавание текстовой строки, которое у нас имплементировано.
Крутой ряд конструктивных вопросов, присоединяюсь к ZlodeiBaal.
на альфе?
4154 2112 5215 3497
10/10
4154 2112 5215 3497
10/10
Можно будет взять изображения из вашей статьи для моей статьи по теории и алгоритмам устранения искусственного размытия (deblur)?
Зарегистрируйтесь на Хабре, чтобы оставить комментарий
Легко ли распознать информацию на банковской карточке?