agusarev96 May 22 2024 at 10:15

Распознавание капчи при помощи CNN модели

Medium

11 min

4.7K

Python * Machine learning *

From sandbox

Comments 5

digtatordigtatorov May 22 2024 at 16:41

Чем тут RCNN поможет? Предсказывать последовательности круто, но капча это рандомный набор символов, это будет бесполезно.

MMocr на гитхабе предоставляет предобученные распознаватели текста

agusarev96 May 24 2024 at 06:37

Про RCNN напишу ещё такую же статью, как разберусь сам. видел несколько коротких примеров, но не погружался ещё. Скорее всего там важно не предсказывать последовательность на основании прошлых символов, а сама опция выдавать ответ не фиксированной длины, которую дает архитектура.

Предобученные распознаватели это хорошо, но тут была цель именно разобраться самостоятельно.

digtatordigtatorov May 26 2024 at 14:48

Рекуррентные сети просто запоминают веса предыдущих слоев (в слое внимания) и учитывают их в последующих, тут из-за рандома будет не так эффективно, а разные длинны последовательностей, на мой взгляд будет разумнее поменять на детекцию отдельных символов.

В моделях mmocr типа ABINet, как понимаю текст бьется на отдельные буквы детекцией, а дальше используют обычную CNN с головой классификации, можно попробовать заменить енкодер на визуальный трансформер like vit или swin, должно быть лучше.

Дополнительно можешь посмотреть даты, на которых обучались предобученные модели в гите они есть. Как распространенный пример стандартный MNIST расширенный буквами (EMNIST).

n1kkj May 23 2024 at 05:58

Осталось написать какой-нибудь макрос, и при следующей капче запускать нашу модель, а не щуриться)

psvtg May 27 2024 at 05:54

Отличная статья для начинающих в области машинного обучения и обработки изображений. Автор детально объясняет все этапы, сопровождая их примерами кода и практическими советами. Интересно было увидеть использование алгоритмов предобработки изображений, таких как размытие и бинаризация, для повышения точности модели.