Среди прочего я занимаюсь разработкой систем извлечения и преобразования данных. Это такие программы, которые умеют преобразовывать плохо структурированные веб-страницы к структурированной форме и, затем, проводить операции интеграции и трансформации данных.
Сходные системы используются в системах сбора новостей, с той разницей, что rss уже структурированный формат.
В более сложных случаях надо создать т.н. враппер, обрабатывающий документ и представляющий его в виде, например, XML-данных.
Кроме того система должна уметь переходить с одного документа на дуругой, например проходить процедуру регистрации или заполнять формы поиска.
В том-то и дело что не вполне четкие. Грань между художественной фотографией и порно проходит в человеческом восприятии изображения. Поэтому и созывают экспертный совет культурологов.
С ботами все проще. Надо не пустить школьника на порно-сайт. Достаточно «заподозрить» : ) что это порно.
Так и с красивый/некрасивый обезьянка/человек. Надо чтоб робот угадывал в n раз чаще чем тупой брутфорс. Уже вперед.
Надо разговаривать с теми, кто решал. Я все-таки специализируюсь на системах извлечения данных из web. Распознавание капч для меня — один из возможных инструментов. Пока мы просто игнорируем этот момент, так как нет задач, требующих обхода. Но ребята из LiXto, с которыми мы работаем что-то делали в этом направлении и в т.ч. думали о применении нейросетей.
Ну то был ответ на «простейшую нейросеть». Вопросы их применимости к распознаванию капч решаются не на уровне можно/нельзя, а насколько это эффективно. Если простой брутфорс даст такой-то процент попаданий, то с «распознавалкой», например в 10 раз больше. Успех? Да. Для спам-бота. Для какой-то другой системы — нет.
Да, если бы с нейросетями и проч. было все просто, никто бы не парился с распознаванием капч порносайтами. Факт что чем сложнее распознать капчу математическим способом, тем труднее (обычно) это сделать и человеку.
Кстати не разбирались, как работает ocrad? Из всех виденных мной ocr-ов она самая странная, но с весьма неплохим качеством распознавания.
Задачу узнавания лиц решали у нас на кафедре. Приобретение фирмы не особо связано вопросом легко/сложно. Есть рынок фирм, рынок технологий. Одно дело proof of concept, другое — работающая технология.
Создание и тренировка нейросетей — лабораторная работа на специальности АСУ. Не надо цепляться к словам, есть такое понятие — разговорный стиль. У алгоритмов ABBYY несколько другая задача и условия работы. Если спам-робот будет угадывать в 10% случаев это уже успех. Поищите в гугле порнодетектор, посмотрите как он работает, если это ваша специальность.
Бросаясь словами «полноценный искусственный интеллект» и «Нобелевская премия» неплохо-бы сначала дать определение понятия ИИ (само тянет на докторскую), и вспомнить, что математикам нобелевку не дают по определению.
Дело тут не в том обошел/не обошел. Есть сайты общего пользования, на них распространяется ряд стандартов. Ряд из них требует обеспечения взаимодействия с инвалидами.
Свою домашнюю страницу можно делать как получится. Никто не придерется.
да, каптча должна устаревать, но тут нас подстерегает другая проблема на коиента приходится отдать ее ID. А по нему можно восстановить код ответа! Так обходятся очень многие каптчи.
Пользователя просят решить дифуравнение : ) а роботу достаточно взять ID и сообразить, что на b2345a17 надо отвечать 42.
Обычно речь идет о форуме, почте, банковском счете и т.п. Все эти вещи прекрасно обрабатываются скринридерами и брайль-мониторами. Возможно это покажется странным, но у Интернета достаточно много слепых и слабовидящих пользователей.
алгоритмы распознавания образов тоже не у всех «в заначке» лежат. Кстати у вас дома есть фумка? А у вора вот есть. Люди, которые специализируются на написании спам-ботов соответственно владеют необходимым инструментарием.
OpenSource реализаций нейросетей и waveletов достаточно много, надо только выбрать наиболее подходящий.
Из «мирных» применений видел, например, детектор порнографии. С обезьянками будет еще проще. Ну и потом, у всех капч, основанных, на картинках есть минус. Их можно распознавать порносайтом. Так как они легко выдираются из html и отдаются на другой сайт. Предлагаемый механизм ставит дополнительный препон до стадии распознавания.
там-же и ответил : )
Кстати правильная капча должна распознаваться человеком с ограничениями по зрению. В топике приведен пример:
сочетание нарисованного текста с вопросом на понимание. Ответить на вопрос невозможно без прочтения (или прослушивания) фрагмента текста, в который встроена картинка, созданная таким образом.
во-первых понятие красивый все-таки отличается у разных людей.
во-вторых натренировать нейросеть узнавать красивых людей это как 2 байта переслать.
в-третьих некоторые капчи обходятся очень просто. Угадыванием ответа по воссозданию условий генерации.
Сходные системы используются в системах сбора новостей, с той разницей, что rss уже структурированный формат.
В более сложных случаях надо создать т.н. враппер, обрабатывающий документ и представляющий его в виде, например, XML-данных.
Кроме того система должна уметь переходить с одного документа на дуругой, например проходить процедуру регистрации или заполнять формы поиска.
С ботами все проще. Надо не пустить школьника на порно-сайт. Достаточно «заподозрить» : ) что это порно.
Так и с красивый/некрасивый обезьянка/человек. Надо чтоб робот угадывал в n раз чаще чем тупой брутфорс. Уже вперед.
Да, если бы с нейросетями и проч. было все просто, никто бы не парился с распознаванием капч порносайтами. Факт что чем сложнее распознать капчу математическим способом, тем труднее (обычно) это сделать и человеку.
Кстати не разбирались, как работает ocrad? Из всех виденных мной ocr-ов она самая странная, но с весьма неплохим качеством распознавания.
На сайте проекта они отвечали на эти вопросы, надо поискать, я читал полтора года назад, сейчас не помню.
Я был уверен, что кто-то это всяко уже реализовал.
Бросаясь словами «полноценный искусственный интеллект» и «Нобелевская премия» неплохо-бы сначала дать определение понятия ИИ (само тянет на докторскую), и вспомнить, что математикам нобелевку не дают по определению.
Свою домашнюю страницу можно делать как получится. Никто не придерется.
Порнодетектор — реальность. 100% качества он, конечно, не дает, да и не важно. Люди тоже не всегда угадываюь.
Пользователя просят решить дифуравнение : ) а роботу достаточно взять ID и сообразить, что на b2345a17 надо отвечать 42.
OpenSource реализаций нейросетей и waveletов достаточно много, надо только выбрать наиболее подходящий.
Из «мирных» применений видел, например, детектор порнографии. С обезьянками будет еще проще. Ну и потом, у всех капч, основанных, на картинках есть минус. Их можно распознавать порносайтом. Так как они легко выдираются из html и отдаются на другой сайт. Предлагаемый механизм ставит дополнительный препон до стадии распознавания.
Кстати правильная капча должна распознаваться человеком с ограничениями по зрению. В топике приведен пример:
во-вторых натренировать нейросеть узнавать красивых людей это как 2 байта переслать.
в-третьих некоторые капчи обходятся очень просто. Угадыванием ответа по воссозданию условий генерации.