Comments 5
Чем тут RCNN поможет? Предсказывать последовательности круто, но капча это рандомный набор символов, это будет бесполезно.
MMocr на гитхабе предоставляет предобученные распознаватели текста
Про RCNN напишу ещё такую же статью, как разберусь сам. видел несколько коротких примеров, но не погружался ещё. Скорее всего там важно не предсказывать последовательность на основании прошлых символов, а сама опция выдавать ответ не фиксированной длины, которую дает архитектура.
Предобученные распознаватели это хорошо, но тут была цель именно разобраться самостоятельно.
Рекуррентные сети просто запоминают веса предыдущих слоев (в слое внимания) и учитывают их в последующих, тут из-за рандома будет не так эффективно, а разные длинны последовательностей, на мой взгляд будет разумнее поменять на детекцию отдельных символов.
В моделях mmocr типа ABINet, как понимаю текст бьется на отдельные буквы детекцией, а дальше используют обычную CNN с головой классификации, можно попробовать заменить енкодер на визуальный трансформер like vit или swin, должно быть лучше.
Дополнительно можешь посмотреть даты, на которых обучались предобученные модели в гите они есть. Как распространенный пример стандартный MNIST расширенный буквами (EMNIST).
Осталось написать какой-нибудь макрос, и при следующей капче запускать нашу модель, а не щуриться)
Отличная статья для начинающих в области машинного обучения и обработки изображений. Автор детально объясняет все этапы, сопровождая их примерами кода и практическими советами. Интересно было увидеть использование алгоритмов предобработки изображений, таких как размытие и бинаризация, для повышения точности модели.
Распознавание капчи при помощи CNN модели