Comments / Profile of wtf / Habr

Daniel @wtf

User

ProfileArticles1PostsNewsComments300

wtf Jun 10 2007 at 20:13

Главное — заставить робота визуализировать весь html. Например резместив изрядное количество групп точек так что пользователь их не видит (находятся позади другого блока), а они там есть и формируют «левые» центры масс.

Вобщем это уже надо обсуждать конкретные алгоритмы/контралгоритмы. Пока речь идет о концепте, понятно, что

а) реализуемо,
б) добавляет гимора спамерам,
в) не является панацеей (изначально не позиционировалась как таковая),
г) сильно усложняет html.

Последний пункт портит дело, но не мешает созданию proof of concept, что и видно из коммента про omgili.
Осталось попробовать создать свой poc и поломать : )

0

wtf Jun 10 2007 at 19:58

Это депутат такой. Впрчем могу и переврать фамилию. Он выступал за создание собственной ОС силами ABBYY.

0

wtf Jun 10 2007 at 19:43

Ну это немного из другой оперы, хотя и близко.

0

wtf Jun 10 2007 at 19:05

зачем. мы просто просим его сделать то-то и то-то. Потом находим подтверждение и даем пароль.

0

wtf Jun 10 2007 at 18:51

Если есть js-события, то можно воссоздать их цепочку. Это несложно. Вот если события закодированы капчей (например экранная клавиатура, надо набрать «привет») тогда да.

Но это уже другая капча.

0

wtf Jun 10 2007 at 18:49

Ну вот это-то сработает всегда. Можно вообще честно написать — зарегистрируйтесь там-то и мы вам дадим пассворд от сайта.

Вопрос в том, захотят ли потребители порно искать каптчи и вводить их в сложных документах.

0

wtf Jun 10 2007 at 18:37

При противодействии получается состав уголовного преступления.

Про следующее поколение — отчасти верно. В отличие от google данные в такой системе аннотированы, поэтому релевантность запросу выше. Собственно, например в flightsearch на visiteurope она равна 100% так как оно либо находит рейс из Амстердама в Париж, либо нет. Поиск-же в гугле даст кроме цен на авиабилеты еще и кучу разнообразного мусора. В минусе, разумеется имеем универсальность.

0

wtf Jun 10 2007 at 18:31

ГЛОНАСС имеет стратегическую ценность. w3c — нет. Операционную систему например мы имеем свою и даже не одну. Только Алкснису об этом не известно : )

0

wtf Jun 10 2007 at 18:26

только скачать не удается

0

wtf Jun 10 2007 at 18:20

Идея изначально подразумевала примерно это. В сочетании с отсутствием четких признаков выделения html-элементов, ответственных за составление каптчи.

0

wtf Jun 10 2007 at 18:15

Реализация каптч по событию противоречит ряду требований. И не представляет сложности для обхода. Нет смысла париться с этим вообще.

0

wtf Jun 10 2007 at 18:13

Все дивы одинаковы. черные/белые пиксели. Ну или цветные. Только некоторые не собираются в картинку, потому что по тем или иным причинам не видны или просто висят в пространстве. Вырезав их всех по какому-то признаку из DOM и визуализировав с 100% вероятностью получаем не то, что видит пользователь.

0

wtf Jun 10 2007 at 18:01

Cобственно российского аналога w3c я тоже не знаю...

0

wtf Jun 10 2007 at 17:59

Гм. при чем тут перехват модификаций DOM. Робот получает html-документ, он может либо визуализировать его целиком, либо искать каптчеподобный элемент DOM-дерева. JS тут не очень нужен, хотя собственно не важно. Кому что привычнее. Пример из топика парсится очень легко, я бы даже не стал тратить время на его реализацию. Он только показывает внешний вид и примерный объем файла.

Смысл появляется если div-ы с абсолютной позицией расставлены по тексту в произвольных местах. И зашумлены div-ами которые в капчу не собираются. Вырезав только div-ы получится некая картинка (если извратиться с css и java-script) можно сделать так, что получится просто бред. Смысл зашумления чтобы при вырезании divов по какому-то признаку получалась неправильная картинка.

Задача хака сводится к поиску правила извлечения divов из структуры. Не всегда его удается найти. Скажем по наличию атрибута «position:absolute» нельзя.

Обработка dom-дерева тоже не всегда надежна и результативна к сожалению.

0

wtf Jun 10 2007 at 16:55

В этом и смысл.

0

wtf Jun 10 2007 at 16:51

Весь геморрой имеет смысл только если положение капчи заранее предсказать невозможно. Иначе лишняя трата времени. Я рассматривал 2 варианта использования — внедрение в форму ответа на форуме (ну типа рядом с кнопкой «добавить» сейчас) или в сочетании с «вопросом на понимание». В обоих случаях предсказать место изображения невозможно.

0

wtf Jun 10 2007 at 16:47

Это как-бы понятно. Меня и удивило высокое качество распознавания при таком «тупом» подходе.

0

wtf Jun 10 2007 at 16:37

Трудно говорить как понятнее не зная заранее уровня знаний собеседника : )

Яндекс-новости видели? Это пример системы интеграции данных. Система извлечения данных может работать не с rss (как яндекс), а с любыми входными форматами.

Цели бывают самые разнообразные. Например последний крупный проект — система поиска авиабилетов для сайта http://www.visiteurope.com.

0

wtf Jun 10 2007 at 16:32

Верю. Но ведь речь идет о принципиальной возможности. Для разработчика капчи важно знать можно/нельзя. В первую очередь. Во вторую — насколько сложно. В третью — как сделать сложнее. Не запутав при этом человека.

Предлагаемый метод усложняет задачу для робота тем что вместо одной задачи ему придется решать 2 (3,4...). Причем одновременно усложняется задача скармливания капчи человеку. Вам, наверное, проще прикинуть, насколько сложна задача поиска капчеподобного текста в визуализированном html-документе...

0

wtf Jun 10 2007 at 16:25

Не только в америке. В TU Wien в институте информационных технологий лифт оборудован устройствами «для слепых». Брайль-кнопками и голосовым информатором.

0

1 2 ...

12