Comments 9
эти капчи уже в районе 80-90% различимости человеком и так)
https://habrastorage.org/getpro/habr/upload_files/c83/e90/12e/c83e9012eaddd454ef82665926956461.png
тут на вашей капче для меня например ваще не понятно, это S или 5 предпоследняя, на других примерах есть тоже вопросы
Именно на этом этапе проекта я осознал, что в капче 4Chan присутствуют только символы 0, 2, 4, A, D, G, H, K, M, N, P, S, X, Y.
Это определенно не 5. Впрочем, если разработчики об этом подумали, то вполне может оказаться, что и 5 и S считаются правильным ответом.
ага, именно "осознал", а когда видишь капчу впервые и хз как она обрабатывается и что считается одинаковым - есть куча вопросов.
я довольно долго работал в запчастях авто и единственные допущения там были - букв l,O,Q не может быть в VIN, а что "принято" в каждой конкретной поделке для капчи - это вопрос каждый раз, некоторые особенно отбитые даже регистр символов различают, хотя на самой капче это очень непросто понять.
Отлично, теперь тролли с фочана могут с кулдауном от 20 секунд до 240 секунд спамить триггерными высказываниями.
А если серьёзно, то автор молодец. Тоже недавно решил заняться нейросетями и половину недели убил, чтобы написать всё самому на Python без Keras и Tenserflow, лишь numpy, PIL и мои ручки. Запоминает картинки хорошо, а вот вертеть/крутить неохотно. В силу отсутствия нормального компьютера пришлось писать на Pydroid.

Автор, что планируете дальше делать с кодом? Отложите в долгий ящик или пустите в народ? 🧐
Автор, что планируете дальше делать с кодом? Отложите в долгий ящик или пустите в народ? 🧐
Код я опубликовал на GitHub.
Тоже делал распознавание капч LSTM/CNN сетью на TensorFlow/Keras четыре года назад, у меня было около 15000 файлов, размеченных Тессерактом и более простой сетью на NymPy. Но там картинки были не такие забористые. Точность приближалась к 100%
И снова про капчу Сервис распознавания капч, который больше не нужен
Я делал давно чёт подобное, я чисто разбил все варианты букв и потом оно капчу разделяла на буквы, откидывала некоторые цвета и тд и сравнивала с датасетом, скорость решения была дикой, вкусное
Ломаем капчу 4Chan