GNC10 авг 2015 в 13:36

Распознавание кириллической Яндекс капчи

3 мин

46K

Информационная безопасность * Машинное обучение *

+42

Комментарии 17

amarao 10 авг 2015 в 14:26

Попробуйте собрать корпус записей из амбулаторных карточек и натравить на это роботов.

Потому что я это разобрать не могу.

Milfgard 10 авг 2015 в 18:09

Это тоже капча. Проходят только врачи.

rananyev 11 авг 2015 в 06:23

МедКапча должна будет говорить еще и «вроде как, да, похоже»

kronos 10 авг 2015 в 16:03

«Первый слой обучаемый и состоит из 600 нейронов, выходной состоит из 31 нейрона» как выбирается размер сети? Всегда интересно было

vanwin 10 авг 2015 в 16:53

Я так понимаю, 20x30=600 пикселей буква и на этом полотне допускается 1 из 31 букв.

Sayonji 11 авг 2015 в 12:04

Я так понимаю, автор ошибся: обучаемые слои там как раз внутренний (900 нейронов) и выходной (31).

RomanL 10 авг 2015 в 16:39

Если вы сделаете распознавалку 6-ти и 7-ми символьных капч VK с точностью процентов в 20 то напишите в личку сколько вы хотите за это решение ))

Crash13 10 авг 2015 в 18:42

Согласен, очень интересная задача!
Вопрос, почему карму Роману понижают?

netcitizen 10 авг 2015 в 18:53

Ошибки, смайлики и упоминание VK.

rocket 10 авг 2015 в 19:53

Где вы нашли такую капчу у яндекса из осмысленных слов?
Заглянул в аддурилку — там вот такое:

SaturnYar 10 авг 2015 в 21:11

На разных сервисах может быть разная капча. В поисковой выдаче, например, выдаётся осмысленная.

Mox 11 авг 2015 в 00:33

А за счет чего возможно повысить надежность распознования? Это количество нейронов? Количество тестовых примеров?
Как понять когда сложность сети нужно увеличивать?

Обязателен ли шаг деления на буквы, или возможно распознавать все слово?

matiouchkine 11 авг 2015 в 05:39

Для распознавания всего слова потребуется количество выходных нейронов размером со словарь. Это пока даже для распределенных вычислений непосильно.

Mox 11 авг 2015 в 14:07

Вроде IBM делала чип на 1 миллион нейронов, который к тому же параллелился и потреблял 40 милливат. То есть мощность нейростей уже достижима вполне.

GNC 11 авг 2015 в 09:34

Увеличение числа тестовых примеров позволит лишь точнее оценить распознавание.
Расширение обучающей выборки, при должной продолжительности обучения, дадут 80-85% точности для каждого символа, после чего все упрется в качество сегментации.
Сложность сети увеличивается добавлением нейронов, когда прекращается уменьшение ошибки на тестовой выборке, опять же, есть 'потолок', выше которого увеличение размерности сети не приводит к улучшению её обобщающей способности.

Шаг деления на буквы НЕ обязателен, в статье о kcaptcha сеть полностью распознает капчу, минуя этот этап. Однако в таком случае требуется порядком больший размер обучающей выборки и самой сети.
Оптимальным вариантом для распознавания капч без предварительной сегментации, будет сверточная нейросеть, эту тему я затрону в последующих публикациях.

AndrewTishkin 11 авг 2015 в 13:48

В течении суток

Яндекс ~~наносит ответный удар~~ обучает нейрописателей

UksusoFF 19 авг 2015 в 14:13

Распознали:

К сожалению, данный API более не поддерживается. Новые ключи не выдаются, а 1 октября 2015 года API будет выключен полностью.

tech.yandex.ru/cleanweb

Зарегистрируйтесь на Хабре, чтобы оставить комментарий