toshchakov 6 апр 2021 в 11:01

«Я не робот»: история Яндекса о том, как победить ботов, а не людей

6 мин

42K

Блог компании ЯндексСпам и антиспамИнформационная безопасность*Веб-разработка*Обработка изображений*

Технотекст 2021

+86

123

Комментарии 123

redneko 6 апр 2021 в 11:10

Уважаемый Яндекс, я вот не робот, честное пионерское. Но капча ваша уже нереально задрала. Почему она вылезает, даже если пользователь залогинен, если из этой же сети стучится к вам ваша же колонка с Алисой? Всего-то стоило настроить IPv6 от HE. И даже белый статический IPv4 не спасает, хотя в tcpdump видно обмен с вашими сервисами, используя оба протокола. Раз вы презентуете себя как компания, славящаяся ML, то может стоит при обучении динамически учитывать еще и подсети своих пользователей, чтобы не заставлять их страдать?
P.S. Одна ваша капча однажды очень повеселила, попросив ввести фразу Avoid Smiling, напомнив что да, не время нынче улыбаться:)

toshchakov 6 апр 2021 в 11:27

Спасибо за отзыв! К сожалению, роботы умеют имитировать людей (любой признак, в том числе авторизовываться в Я и прочее), поэтому полностью исключить ложноположительные срабатывания сложно. Но каждый такой пример помогает нам учиться. Поэтому прошу вас при следующем появлении капчи нажать на «обратную связь» и прислать нам детали. В текст сообщения допишите «привет от redneko с Хабра». Обязательно посмотрим.

redneko 6 апр 2021 в 11:44

Алексей, спасибо за обратную связь. Попробую сделать как вы сказали.

vmkazakoff 6 апр 2021 в 12:28

И теперь вам все ботоводы массово начнут слать обратную связь через ту кнопку, дописывая приветы с Хабра, в надежде что ваша модель пока обучается посчитает что это люди =]

toshchakov 6 апр 2021 в 12:32

Могу сразу сказать, что это не поможет роботам )

Lev3250 6 апр 2021 в 16:55

То, что боты могут логиниться — ок.
Но почему каждый раз, когда я в инкогнито залогиненый (с рабочего компа) под аккаунтом с активным яндекс такси и привязанной картой с реальными оплатами, он всё равно спрашивает капчу.
Неужели для капчи не происходит проверка на акк-пустышку и реальный "человеческий"

vanxant 7 апр 2021 в 00:06

В зависимости от вашей продвинутости, вы сами можете запустить парсер яндекса, либо же за вас это мог сделать ботнет. Технически и то и то — это просто ещё одна вкладка или окно вашего же браузера со всеми вашими сессиями.

GennPen 6 апр 2021 в 17:49

поэтому полностью исключить ложноположительные срабатывания сложно

Мне кажется, это особенность Яндекса относиться с недоверием ко всем кто использует IPv6 от HE, даже Google нормально его воспринимает. У самого тоже тоннель от HE и когда в приватном режиме что то пытаюсь найти через Яндекс — всегда вылазит капча.

dakuan 6 апр 2021 в 20:36

Если не секрет, что за роботы там такие, борьба с которыми требует применения таких радикальных средств? Это просто оружие массового поражения какое-то, вместе с роботами еще и кучу вполне себе людей отсекаете. Первая капча, которую я не смог решить. Буквально 2-3 недели назад пытался создать Яндекс-аккаунт. Сначала указал свой мобильный номер — превышен лимит звонков. Ладно, думаю, наверное, нужен российский номер. Достал мегафоновскую симку — та же история. Капча еще больше вопросов вызвала, даже гуглить пришлось как ее решать — нужен ли пробел между словами, учитывается ли регистр символов, нужно ли вводить спецсимволы и т.д. Попробовал все варианты, но в итоге так и не пробился — после ~70 попыток был вынужден признать, что я робот и пойти регистрироваться в Gmail.

Обычный европейский проводной провайдер, никаких VPN и средств анонимизации не использовал.

Gor40 7 апр 2021 в 11:22

А может ваша система не показывать капчу, если пользователь переходит в поиск по ссылке из вашей же Толоки?

sergey_privacy 25 сен 2023 в 23:05

КРАЙНЕ НЕуважаемый яндекс! Я антибота вижу по несколько раз в день. Пробовал и через ВПН-ы, и с белым IP, и через NAT. И через chrome, и через Firefox. И windowd 7-2019, и Linux. Ваш ужасный яндекс-браузер, по очевидным причинам, не использую. В службу техподдержки обращался раз 10, проводили какие то диагностики, потом шаблонная отписка. Вы боретесь с ботами, у вас такая проблема? А как же работают все остальные компании, не задалбывая пользователей? Вы перешли все разумные границы. Ваши сервисы из года в год все хуже. Вроде бы высокотехнологичная ИТ-компания, один из лидеров рынка, а качество продукции "на троечку". Настраивайте нейросеть для отличения людей. Вы можете отслеживать сотни параметров. Составляется "портрет" пользователя на основе действий мышью, по скорости перемещения курсора, про логику перемещений по страницам и т.д. Такое ощущение, что слушаете телефон. Только проговорили голосом про покупку машины - через 5 минут вылазит куча рекламы по этой конкретной тачке. Я привык к вашему поиску, ломать себя тяжело, но эта капча настолько задолбала, что уже готов переходить полностью на гугловый поиск.

mreugene 6 апр 2021 в 12:49

Та же самая ситуация в двух локациях с IPv6 от HE. Причем если изначально было только в режиме инкогнито — сейчас и при обычной работе встречается. Но стало лучше — сейчас капча только с чекбоксом отображается.

Ответ техподдержки Яндекса от 16.07.2020:

Евгений, насколько я вижу, ваш IP-адрес относится к сети Hurricane Electric. Увы, в этой сети очень много роботов, поэтому мы вынуждены накладывать дополнительные ограничения для пользователей с такими IP-адресами.

Рекомендую отказаться от использования Hurricane Electric на сервисах Яндекса. Однако если такой возможности нет, то:

1. Нужно включить куки и хранить постоянно, их отсутствие воспринимается как признак робота;
2. Не нужно использовать язык запросов при использовании поиска: yandex.ru/support/search/query-language/search-operators.html

datacompboy 6 апр 2021 в 12:58

«2. Не нужно использовать язык запросов при использовании поиска: yandex.ru/support/search/query-language/search-operators.html»

я прямо даже и не знаю что такого нематерного сказать на это предложение…

toshchakov 6 апр 2021 в 13:13

Согласен, формулировка не очень хорошая. Здесь по сути говорится, что роботы часто используют и полагаются на «язык запросов», поэтому этот фактор может быть достаточно значимым, при недостатке другой информации или при наличии других негативных сигналов. Но это точно не единственный фактор. И в обычной ситуации из-за использования «языка запросов» не должно быть капчи.

datacompboy 6 апр 2021 в 13:38

Я хочу сказать что если фича не для юзеров — отключите её. Говорить пользователю «не используйте наши фичи» это просто издевательство.

toshchakov 6 апр 2021 в 15:13

Фича как раз для людей. Это формулировка ответа неудачная, исправим.

mixsture 6 апр 2021 в 17:03

Да нет, формулировка в целом смысл доносит. Он примерно такой: либо вы похожи на тетю Клаву (которая ничего в компьютерах не смыслит — какой уж там язык запросов), либо вы нам не нужны как клиент поиска.
И вот этот смысл ужасает. Я бы его перевернул, утрировал и посыпал сарказмом во фразу:
Яндекс — не место для профессионалов.

Вот примерно об этом же рассказывает redneko в соседних комментариях.

tendium 6 апр 2021 в 21:06

К сожалению, у Гугла подобная же логика. Стоит мне начать искать что-то специфическое, а гугл и так, и сяк не может дать ожидаемый ответ, то через 4-5 запросов я начинаю получать капчи. А я человек, честно-честно. Хотя...

zuek 15 апр 2021 в 10:40

Когда я пытался пользоваться "домашним интернетом" от одной "полосатой" компании, мне капчи сыпались не на 4-5-й запрос, а просто на заход на главную гуглопоиска… пришлось уйти к другому провайдеру, тем более, что и тарифы там чуть интереснее.

redneko 6 апр 2021 в 13:48

Вот собственно о том и речь, что весь ответ техподдержки можно свести к классическому "нет человека — нет проблемы" и проще кинуть в бан всё адресное пространство ураганных электриков, чем немного изменить логику работы. Имхо, в мире розовых пони алгоритм мог бы быть чуть умнее — при подключении пользователя по IPv6 подсовывать скачивание пикселя с сервера, имеющего только v4 связность, запоминая связку обоих адресов (v4 и /64 или /48 адреса сети для v6), учитывая это как один из параметров антиспама и динамически вычислять скоринг, ориентируясь в том числе и на поведение остальных пользователей из этих сетей.

HardWrMan 6 апр 2021 в 15:15

Вот, кстати, да. Тоже залогинен, честный статичный IPv4 но ya.ru периодически рандомно выкидывает подобную капчу:

При этом я действительно могу искать разноплановую информацию: в одном окне датащит на детальку а в соседнем где купить сезаль. Я не бот, честно-честно!

HardWrMan 11 апр 2021 в 17:46

Ах! Сегодня впервые вместо капчи вылезла вот такая галочка:

Это прогресс, товарищи!

DistortNeo 6 апр 2021 в 19:17

Ещё веселее дела обстоят в гугле. Это когда ты сначала проходишь капчу, но в итоге тебя все равно не пускают под предлогом того, что с вашего IP делается слишком много автоматических запросов.

redneko 6 апр 2021 в 19:35

Было такое дело, давным-давно, когда сидел на местечковом говнопровайдере с DOCSIS, у которого за NAT сидела, наверное, половина города на одном IP. С тех пор у гугла таких финтов ушами не наблюдал ни разу, и к IPv6 у них вопросов нет.

DrZlodberg 7 апр 2021 в 09:33

Ничего не изменилось. У 2х провайдеров и с работы за NAT периодически вылетает даже на первый запрос.

kwasd 12 апр 2021 в 23:39

Встречал такое имея белый статический ipv4-адрес от проводного Билайна в Москве. Может быть, потому что последний октет моего адреса был 255?
Длилось это годами, при этом ничего странного в/из моей сети, скорее всего, не происходило (пара скучных линуксовых машин). Закончилось, когда адрес я случайно сменил.

НЛО прилетело и опубликовало эту надпись здесь

toshchakov 6 апр 2021 в 11:46

В прошлом с картинками и правда было страшно. С этой стороны уже должно стать в среднем сильно проще. Но продолжим и дальше работать, чтобы капча вообще не появлялась. У меня к вам такая же просьба: на странице с капчей можно нажать на «обратная связь». Так у нас будет больше примеров от реальных пользователей.

chtulhu 6 апр 2021 в 11:35

Если делать масс регер, то капчагадательные сервисы всегда хорошо справляются. В том числе и с рекапчей. Чем ваша капча в этом случае такая особенная?

На wordstat новую капчу еще не прикрутили? Хотелось потестировать.

И кстати, ML это громкое название для процесса сбора большой бд «нормальных» юзеров и сравнение отклонений от нормы или там есть чет такое эдакое?

toshchakov 6 апр 2021 в 12:14

Если говорить про роботов, то у нас для них индивидуальный подход, но сильно деталей не готов рассказать. Если говорить про отличия других решений, то мне кажется, что мы сейчас больше повернулись к людям.

С wordstat уже работаем и там скоро будет лучше.

По ML, там классическое машинное обучение и задача бинарной классификации + немного нашей специфики.

chtulhu 6 апр 2021 в 12:33

Понимаю, но я и не интересуюсь, как вы детектите роботов(+- как и все, тот или иной фингерпринтинг), я предполагаю, что ваша капча не будет препятствием для сервисов, которые решают капчи за копейки. Когда выкатите на вордстат, то кто-то может проверит.

Вы, кстати, как относитесь к тому, чтобы кто-то с хабра разобрал вашу систему фингерпринта и пуленепробиваемость вашей капчи? В суд подавать будете? ))

gusev 6 апр 2021 в 11:40

Яндекс окончательно проиграл борьбу с накруткой ПФ? Или он до сих пор «не признает, что она есть» и великий и могучий ML не учитывает накрутки?

Вам кто больше нравится: Олененок, Конь, Белка, Бобер или Сурикат?
P.S чтобы понять о чем я не поленитесь откройте выделенные сайты.

Stesh 6 апр 2021 в 12:02

не поленитесь откройте выделенные сайты.

Хорошая попытка, но… )

gusev 6 апр 2021 в 12:10

Согласен, со стороны выглядит как попытка накрутить … Но это троллинг показывающий до чего доводит игнорирование проблемы. Там веселые животные в ироничной форме это показываю, к создаю этих сайтов отношения не имею.

LSDtrip 6 апр 2021 в 15:12

И вы не согласны с тем, что это лучшее, что можно выдать на запрос по сео курсам (без слова бесплатно)? Наглядно, весело, с пруфами, что ещё надо? Гугл и утка выдают там всякие лендинги в стиле «мы сами не умеем, но вас научим», и университеты Бауманские (эффективность наверное даже ниже, чем у тех, кто сами не умеют)…

gusev 6 апр 2021 в 16:31

Лучшее / не лучшее тут дело субъективное. Я о другом, есть проблема накрутки searchengines.guru/ru/forum/1029854/page499 Проблема затрагивает довольной процент сайтов, тематик, гео. При обращении в поддержку Яндекс все отрицается. Ответ в духе все накрутки фильтруются и не учитываются. При этом если показать «вот смотрите», то руками буквально за 30-40 минут все отфильтруют и почистят.

tyomitch 6 апр 2021 в 21:28

Ну реально: искали накрутку поиска, получили наглядную демонстрацию накрутки поиска. Что не так?

suffix_ixbt 6 апр 2021 в 12:05

Олененок, Конь, Белка, Бобер или Сурикат

И ни одной хрюши! Это ужасно :(

ainu 6 апр 2021 в 12:50

Это явно не ПФ, ПФ как раз на таких сайтах слетит через какое-то время.

ainu 6 апр 2021 в 12:55

Ну да, Олень, Конь уже пропали. И Суррикат.

НЛО прилетело и опубликовало эту надпись здесь

toshchakov 6 апр 2021 в 13:02

Мы в первую очередь думали про максимально емкие формулировки для людей, которые впервые попадают на капчу. Главное, чтобы они не испугались и поняли, что произошло. Но тут есть, куда еще двигаться. «Сам ты робот» в копилку идей кинули )

docadept 6 апр 2021 в 14:21

«Ок, продолжить поиск»
«Давайте дальше»
«Все ясно»
«Штош»

redneko 6 апр 2021 в 15:51

"Штош, ты не бот"?

Vort123 6 апр 2021 в 11:59

Не отказались ли вы от идеи сообщать при некоторых условиях пользователю, что капча неверна при том, что она верна?

toshchakov 6 апр 2021 в 12:28

В новой версии (которая с галочкой на первом этапе) такое больше не должно случаться. Мы её уже раскатили на наши наиболее нагруженные сервисы, на ряд других докатим со временем.

dopk 8 апр 2021 в 17:17

А как вам идея принимать типичные опечатки за верное введение капчи.
То есть проанализировать как ошибаются обычно боты, как люди. И неверный ответ типичный для человека считать за верный.

toshchakov 8 апр 2021 в 17:50

Интересная идея, мы на это смотрели и это пока дает очень мало. Но к глобальной идее «текст по символам не совпадает, но все-равно пропустим» мы еще вернемся и опечатки могут быть одним из факторов.

tormozz48 6 апр 2021 в 12:10

На правах рекламы. Для сервиса по работе разработал свою капчу с решением простых арифметических примеров: github.com/tormozz48/algebraic-captcha

mogaika 6 апр 2021 в 13:18

Решение вашей капчи автоматизируется продвинутым школьником. Как минимум:
— символы разного цвета и далеко друг от друга
— легко определяющиеся грани (контрастный однородный фон)
— текст на одном уровне, без поворотов, одним шрифтом
— линии отдельным от цифр цветом
— картинки в svg, скорее всего можно упростить задачу еще сильнее поправив некоторые элементы
Хуже только передача решения через url к картинке (бывает и такое)

tormozz48 6 апр 2021 в 15:26

Да автоматизируется легко. Я не буду спорить.

Но любая капча на распознавании картинок это попытка выдержать баланс между:

По дефолту не дать роботам совершать действия
Не заставлять клиентов оставлять свое зрение и нервы при попытке распарсить картинку глазами.

В свое время мы использовали как раз старую капчу от Яндекса и столкнулись с жалобами от клиентов, после чего я предложил и внедрил свое решение. Мое личное мнение такое: «Удобства для людей приоритетнее кейсов когда может пролезть какой-то специально обученный бот, которого можно отследить отдельными метриками».

zuek 15 апр 2021 в 10:58

Хуже — только отдавать зелёную надпись на жёлтом фоне. Ни я, ни мой коллега такую надпись банально не видим — приходится звать девочек из соседнего отдела, чтобы они прочитали.
*не помню, на каком ресурсе натыкаемся на эту дичь, но заходим туда где-то раз в полгода.

datacompboy 6 апр 2021 в 13:40

«is numeric answer for given equation (10 for this case).» — и пример с «8-3=?».
Сильно :)

tormozz48 6 апр 2021 в 15:27

А ведь действительно сильно :). Спасибо, поправлю в документации.

Mishootk 6 апр 2021 в 12:22

Петр Первый прорубил окно в…
Сила действия равна силе…
Жи и Ши пиши через…
А и Б сидели на трубе, А упала, Б пропала, кто остался на трубе?
Зимой и летом одним цветом — …
Как вы думаете, собирать общеобразовательные фразы из школьной и детсадовской программы и предлагать пользователю — это хорошая идея?
Сложность — научить валидатор принимать ответы в синонимах и разных языковых формах, возможно с опечатками.
Недостаток — роботы могут быстро научиться (тяжело поддерживать и обновлять свежую базу вопросов).
Автоподбиратель заданий через обучение на распространенных текстах в сети тоже плохая идея — разгадыватели капч будут искать ответы там же.

chtulhu 6 апр 2021 в 12:36

Как вы думаете, собирать общеобразовательные фразы из школьной и детсадовской программы и предлагать пользователю — это хорошая идея?

разве вы сами не ответили на свой вопрос?

Squoworode 6 апр 2021 в 13:17

Разве же можно ответить вопросом на вопрос?

chtulhu 6 апр 2021 в 13:52

Недостаток — роботы могут быстро научиться

чем вам не ответ на процитированном выше вопрос?

zetroot 9 апр 2021 в 16:12

А почему вы спрашиваете?
:-)

EzikBro 6 апр 2021 в 13:30

Просто ужасная. Во-первых база фраз будет очень небольшая (даже десяти миллионов не набрать), из-за чего роботы ее скопируют вмиг, а во-вторых не все люди учились в нашей русской школе или помнят, что там в ней было. В итоге получаем, что боты будут входить в 99% случаев, а люди возможно даже в меньшем.

SergeiMinaev 6 апр 2021 в 13:00

Акция в честь дня учителя заслуживает уважения.

А вот "всё получится" в монохромном стиле напоминает, скорее, картинки "всё тлен" :)

zuek 15 апр 2021 в 11:05

Выше уже упоминал, что цветные "картинки" не всем доступны для прочтения, так что монохром считаю не злом, а плюсом.

SergeiMinaev 17 апр 2021 в 01:42

Так я и не говорю, что это зло. Вообще, капча хорошая. Просто описал свои ассоциации с "всё получится".

JerleShannara 6 апр 2021 в 13:27

Как же ваша система не любит квадратные экраны и режим инкогнито.

НЛО прилетело и опубликовало эту надпись здесь

toshchakov 6 апр 2021 в 14:04

Да, мы хотим сделать процесс прохождения Капчи / парсинга сервиса максимально дорогим. У нас нет иллюзий, что real time защиту невозможно обойти, но мы хотим сделать это как можно сложнее, дороже и не таким массовым. И не забываем про удобство людей, для которых мы и делаем наши сервисы.

ITMatika 6 апр 2021 в 15:52

Когда пытаюсь подобрать интересный по цене/ТТХ товар, исследую и сравниваю 100500 разных товаров на Я.Маркете. Причём раньше меня за это Яндекс банил, без всяких капч, просто сервис переставал для меня работать. Приходилось обращаться в поддержку, чтобы разбанили. Поддержка отвечала, что живые люди не могут потреблять информацию в таких объёмах.
Так может я и вправду робот?

atrost 6 апр 2021 в 16:18

Я всегда думал, что это не от «роботов» штука, а бесплатное обучение нейросетей, за счет пользователей. И сделано, под предлогом «заботы» о пользователях. Это конечно имхо :)

chtulhu 6 апр 2021 в 16:40

Обучение на что, как кликнуть в квадратик или вы про распознавание объектов на картинке? А для пассивного сбора инфы виджет условной рекапчи особо не нужен.

atrost 6 апр 2021 в 22:48

Распознавание объектов, на некоторых капчах можно двояко ответить и она "пропустит".

Stesh 6 апр 2021 в 23:37

на некоторых капчах можно двояко ответить и она «пропустит».

На 74357181-й попытке — сервер согласился, что у него пароль «Мао Цзедун» (с)

StjarnornasFred 6 апр 2021 в 23:34

А что тут думать? Это как бы ни для кого не секрет. Берётся 50% картинок/слов, которые сервису известны (и их нужно ввести правильно), и 50% тех, которые неизвестны, но хотелось бы узнать. Пользователь заранее не знает, какие из них известны сервису, и стремится ввести все правильно. А машинное обучение тем временем узнаёт, как выглядят пожарные гидранты. Кстати, вы давно видели пожарный гидрант в реальном мире?

Lennonenko 13 апр 2021 в 13:25

национальная специфика, в США они буквально на каждом шагу, норматив 300-500 футов

webhamster 6 апр 2021 в 16:40

> Вы узнаете, как мы отказались от распознавания текста и перешли к его генерации… Если хочешь полностью контролировать качество капчи, то выход только один — генерировать картинки самостоятельно.

Но ведь это было ясно с самого начала.

Лет 15 назад я сам себе написал генерилку капчи для гостевой книги (можно понажимать F5), и пользуюсь ей до сих пор. И вот что я понял: никакого смысла сильно усложнять картинку нет. Если нужно, то спам засунут на ресурс просто люди, вручную за сущие копейки. И никакая капча этому противостоять не сможет. Решение должно быть только комплексное, с привлечением всяких stopforumspam.com и различной внутрисайтовой эвристики.

rvs2016 7 апр 2021 в 19:48

На одном своём сайте ваял я как-то раз ну не прямо капчу, но борьбу с ботами, которые любят отправлять формы на серверы.
Поля формы были открыты не сразу все, а открывались последовательно по мере набора текстов в полях:

Сперва открыто первое поле.
Начало набора текста в первом поле приводит к открытию второго поля.
Ввод во втором поле открывает третье поле и так далее.
Во время заполнения последнего поля открывается кнопка отправки формы на сервер — только ею в моей задаче разрешено отправлять форму.

И вот если из "браузера" ко мне на сервер приходит форма с заполненными полями, которые для набора не открывались, то я эту форму игнорирую, т.к. неоткрытые поля мог заполнить и отправить только бот. :-)

fominslava 7 апр 2021 в 20:22

Многие боты работают через браузер (headless, selenium webdriver, etc) и могут легко справляться с заполнением сложных динамических форм эмулируя поведение реального пользователя (кликая на элементы страницы).

kahi4 6 апр 2021 в 17:08

И никто не вспомнил про гугл?

А вообще я думал что Гугл пока показывает галку, то от мышку трекает, то от ещё что, что должно быть сложнее подделать ботом.

HardWrMan 6 апр 2021 в 20:10

А как он отнесётся к тачскрину? Есть же моноблоки с тачем. А люди любят тыкать пальцем в экран. И тыкают сразу в нужный элемент, не двигая курсор, который телепортируется в место нажатия.

Я помню, что Касперский фильтровал ввод так, что в некоторые поля нельзя было ввести с клавиатуры или тыкнуть мышью если ты на удалёнке. При этом, на экране нет никаких окон или баннеров и мышка двигается. Но не вводится, только с реальных локальных можно ввести. Поля, относящиеся к безопасности: логины, пароли и прочее. Но для этого у Касперского есть драйвера в системе, чего у браузера естественно нет. Так что браузер не сможет определить, если бот будет двигать курсором имитируя действия мышкой вместо посылания сообщения прямо элементу с фокусом.

dimaaannn 6 апр 2021 в 20:46

Я не знаю в чём дело, но гугл и другие сервисы не показывают мне капчу месяцами.
Пару месяцев назад этим увлекался алиэкспресс, но видимо их тоже вынудили отказаться от данной практики.

Возникает закономерный вопрос.
Почему я вижу капчу только на яндексе? Или может быть гугл делает что то не так? )
Закономерное решение — просто не пользоваться сервисами, где мне предлагают пройти капчу.
В войне с роботами побеждают людей. Ага.

Zarathu5trA 6 апр 2021 в 21:00

Глубокоуважаемый Яндекс!

У меня к вам есть один очень странный вопрос: Вы специально отсеиваете капчами пользователей (не роботов), у которых стоит англоязычная версия ОСи и, соответственно, нет русской раскладки клавиатуры? Я вот был очень удивлен пытаясь как-то зайти к вам с неместного компьютера и просьбу ввести для капчи русское слово «аккумулятор». Может давайте сразу будем просить вводить китайские иероглифы или какие-нибудь символы тувимского алфавита? Ну чтобы уже наверняка только избранные могли к вам попасть?

Или же это все таки сознательный шаг и вы строите свой сервис с лозунгами «Русский посиковик — только для русскоязычных пользователей! Чемодан — вокзал — Google!»

toshchakov 6 апр 2021 в 21:37

У нас есть специальная очередь картинок, где только латинские символы. Например, если пользоваться yandex.com, то картинок с кириллицей не должно быть. Если у вас интерфейс на английском, а картинки с кириллицей, то напишите, пожалуйста, в форму обратной связи. Посмотрим на это, такого не должно быть.

пример

robertd 6 апр 2021 в 21:18

Предлагать эту капчу для сторонних разработчиков не планируете?

alan008 6 апр 2021 в 22:09

Надо буквы по дуге (как у вас), но размер каждой буквы разный и базовая линия дуги для каждой буквы тоже смещенная toshchakov

sovaz1997 6 апр 2021 в 22:30

Где-то я уже это видел…

ifap 6 апр 2021 в 22:56

Вряд ли я открою большой секрет, если расскажу, что капчу часто применяют для обучения компьютерного зрения. В целом ничего жуткого, да?

Нет, это бесплатный труд на благо коммерческой компании.

Мы осознали, что капче не обязательно быть исключительным злом в глазах пользователей. Она может быть такой, какой мы захотим её сделать. Например, полезной для людей.

Да-да, мы помним, как reCaptcha еще долго нагло врала про душеполезную оцифровку книг, после покупкии ее Гуглем, когда там уже давно предлагалось распознавать образы для гуглокарт. Яндекс не такой, Яндекс за грамотность искренне переживает…

BarakAdama 6 апр 2021 в 23:23

У вас смысл фразы изменился, потому что объединили фрагменты двух разных абзацев.

В остальном чистая правда. В нашей новой капче картинки генерируются из уже известного текста. Помощь в его распознавании нам не требуется.

ifap 7 апр 2021 в 00:47

Вы правы, мой коммент можно прочесть таким образом, будто я ловлю Вас на противоречии, чего ни в комменте нет, ни в тексте я не заметил.
Ловлю, вернее упрекаю, я Вас в другом, а именно: в попытке подать сугубо коммерческую проблему как эдакое scherzo, повод чуть ли не умилиться: ах, %sayname%, ты думаешь о нас! Не надо так, это бесит еще больше, чем сама капча ;)
Кстати, а почему Вы не пошли по пути динамического формирования кода интерактивных элементов, который можно было бы использовать в качестве «невидимой» пользователю капчи?

toshchakov 7 апр 2021 в 10:48

Кстати, а почему Вы не пошли по пути динамического формирования кода интерактивных элементов, который можно было бы использовать в качестве «невидимой» пользователю капчи?

Невидимая капча — это примерно то, что и происходит на новой странице с «Я не робот». В идеале, конечно, делать такую проверку незаметно на сервисе, но сделать это в лоб не получится, т.к. логика достаточно тяжелая и «притормозит» работу самого сервиса. Но найти тут компромисс и по максимуму перенести проверку в фон — это то, что мы хотим дальше делать.

ifap 7 апр 2021 в 12:37

Вомзожно, мы о разном говорим. Я вот о чем: например, Вы хотите не дать ботам пользоваться поиском. Код формы для поиска включает input submit, по нему, собственно, боты и находят нужные им элементы управления. Легким движением руки делаем этот input невидимым и добавляем второй — видимый input с тем же функционалом, но другим id. Бот «видит» «стандартный» input и радостно «жмет» на него, пользователь — видит «нестандартный», но реально предназначенный для него input и жмет его. Сервер видит, с каким id был использован input и делает обоснованный вывод: в первом случае — тупой бот, во втором — живой человек. Код, конечно, может быть совсем иным, но идея, думаю, понятна: роботы и люди видят страницу поиска по-разному, на этом боты и ловятся.

MarSoft 13 апр 2021 в 17:23

Эта механика имеет смысл против ботов, работающих "по площадям". Если же бот пишется под конкретный сайт, то всё это добро обходится на раз, просто подсмотрев в консоли браузера отправляемые запросы.

ifap 13 апр 2021 в 19:47

Боты для того и пишутся, чтобы все автоматизировать, а не руками лазить в консоль. Один раз посмотрели, написали бота, при следующем заходе сгенерилась форма с новыми ID. Бот распознает ее как соответствующую шаблону и юзает, палясь как бот. Добро пожаловать снова в консоль, и так при каждом заходе. А, погодите, это уже перестает быть ботом со всеми вытекающими…

MarSoft 14 апр 2021 в 02:42

Один раз да, второй раз тоже. А на третий раз автор бота заморочится, расковыряет алоритм — или банально переделает бота на Selenium/Webdriver, чтобы там все скрипты выполнялись как в браузере, соответственно активными будут только «правильные» поля. И всё.
Да, этот подход усложняет написание бота, но не критично, на мой взгляд.

ifap 14 апр 2021 в 11:02

Это соревнование брони и снаряда, а не серебрянная пуля, но в коде их рекламы этот принцип вполне успешно используется.

tundrawolf_kiba 16 апр 2021 в 01:50

банально переделает бота на Selenium/Webdriver,

Только вот работа через Selenium/WebDriver вполне себе палится, и значит разработчику нужно будет написать аналоги этих библиотек, что на порядок усложняет процесс написания бота.

alexxz 7 апр 2021 в 00:14

Задумался я над кнопкой "Я не робот". Я-то надеялся, что там собираются какие-то поведенческие факторы, типа трек курсора мыши, или еще что-то… Может стоит попробовать для глубокой проверки просто показывать крутилку, которая сама исчезнет, а не требовать телодвижений пользователя и угнетать его сравнением с роботом?
Также, читая комментарии пользователей конкретного провайдера выше, я задумался, может вам стоит улучшить ваш классификатор ip2isp? Ну, дополнить его тем же машинным обучением, например…

toshchakov 7 апр 2021 в 10:59

1. Сигналы используем, ML тоже. Конечное решение принимает как раз модель на базе Catboost в режиме бинарной классификации.

2. Мы думали над вариантом «крутилки» вместо галочки. Галочка лучше воспринимается пользователями, потому что сохраняет контроль над ситуацией. Когда что-то само по себе крутится и перезагружается — это пугает людей.

3. ip не является единственным сигналом для принятия решения, сейчас некоторые парсеры без проблем используют мобильные прокси.

dopk 8 апр 2021 в 17:33

Как и alexxz думал, что собираются поведенческие факторы и был весьма разочарован.

Выше были предложения, чем заменить «Я не робот», моя версия, это кнопка типа: «Пусти меня [дальше]». «Дай пройти», «Не мешай» — получается диалог.
Когда я нажимаю «я не робот», потом вижу капчу — это как ответ: «не верю», чувствую конфликт. Когда я нажимаю «пусти меня дальше», а мне капча — я воспринимаю это как «давай, только капчу разгадай и в путь», — мне это нравится больше (я только о своем восприятии, я не все люди, за всех сказать не могу).

A114n 7 апр 2021 в 01:12

Лично я для себя сделал следующие выводы: главная цель яндекса это полное устранение анонимности пользователя. Причём в самом мерзком, маркетинговом смысле — вам нужно знать о пользователе только максимальный набор данных. Любой урезанный набор не подходит, нужно заставить пользователя показать всё. Вам невыгодно, чтобы я нагружал ваши сервера, не отдавая взамен полного слепка истории.

Поэтому пользоваться яндексом из-под VPN, в режиме инкогнито, чистыми браузерами и т.д. — невозможно. Ведь в таком режиме вы не увидите мою историю поиска или регион, или ещё что-нибудь ценное из кук не вытащите. И капча после каждого запроса как бы говорит пользователю — «ну чего ты мучаешься, ты же знаешь, что сделать — отключи VPN, выйди из режима инкогнито, дай нам все свои данные».

Это причина, по которой я всё реже пользуюсь яндексом (с тех пор, как купил постоянный VPN — так практически и не пользуюсь).

Понятно, что вы не признаетесь в этом, я просто пишу, чтобы сказать — да, я это вижу, и все это видят.

BarakAdama 7 апр 2021 в 10:29

Вы правы в том, что спорить нет смысл. Просто оставлю здесь один факт, описанный в посте. Он куда лучше слов показывает направление нашей работы.

теперь в Safari в режиме Инкогнито встретиться даже с галочкой «Я не робот» вероятность примерно в десять раз ниже, чем раньше.

JerleShannara 7 апр 2021 в 10:57

Только в огнелисе я с ней встречаюсь 1-2 раза в день. Вводные данные: квадратный экран (W=H), выделенный IP, Android, Firefox в порнорежиме. Макет поведения — читаем новости, на 20-30 вылетает «Впните сюды галочку».

BarakAdama 7 апр 2021 в 11:10

Репорты через «обратную связь» на страницей с капчей помогли бы команде разобраться в таких случаях.

JerleShannara 7 апр 2021 в 11:22

Отлично, если для репорта будет достаточно только адреса почты, то будут репорты.

JerleShannara 13 мая 2021 в 14:57

Максимальный эффект пинания техподдержки — «вырубите инкогниту, залогиньтесь в аккаунт». Аккаунта нет, инкогнито грохнул на два дня не помогло. Итого — зря только тратил время.

third112 7 апр 2021 в 02:43

Прежде всего удивляет, что капчи на рисунке в статье сделаны стандартными шрифтами, потом их чуть исказили. У Вас дети есть? Или у знакомых? Нужен первоклассник. Попросите его написать «я не робот».

Второе: дайте случайную капчу в чекбоксе: «я не робот» или «я робот» или «я не верблюд» и т.д. — На это быстрее ответить.

Если сработает, то спросите меня личным сообщением — скажу, куда выслать вознаграждение :)
Успехов в нелегкой борьбе.

third112 11 апр 2021 в 12:28

Браво!!!
Минус получил, а критику своих советов не услышал. Явный троллинг, который, к сожалению, цветет и пахнет на Хабре. Вот бы капчу на троллей сделать!

nixtonixto 7 апр 2021 в 08:08

А как вы отличаете от роботов слепых и слабовидящих людей, которые работают на компьютере через программу-говорилку? Для них есть какой-то способ сделать так, чтобы капчи никогда не вылазили?

toshchakov 7 апр 2021 в 10:24

Мы не можем сделать белый список для какого-то среза и не показывать там капчу. Этим сразу начнут пользоваться роботы.
Но наша капча адаптирована для слабовидящих, и у нас есть специальный режим — аудиокапча, на который можно переключиться.

НЛО прилетело и опубликовало эту надпись здесь

maeln0r 7 апр 2021 в 15:51

А шаг с галочкой точно нужен? Неужели сам факт тыка по галочке сильно прибавит к достоверности прогноза?
Я не предлагаю пропускать сам шаг, просто убрать необходимость совершать лишние телодвижения.

vanxant 7 апр 2021 в 16:50

Аналитические роботы Яндекса они такие, им подумать нужно, пока человек мышкой двигает.
Вас много, а я одна! (с)

GennPen 7 апр 2021 в 17:11

Аналитические роботы Яндекса они такие, им подумать нужно, пока человек мышкой двигает.

Нет там никакой аналитики.
Отключил мышку. Прогрузился до капчи.
Запустил document.getElementsByClassName('CheckboxCaptcha-Button')[0].click(); — капча сработала.
Не удивлюсь, если подобное будет срабатывать например на что нть типа CefSharp, откуда потом можно брать куки для продолжения работы ботом.

vanxant 7 апр 2021 в 18:06

Вы статью точно читали?

Пока пользователь ставит галочку, мы проводим дополнительный анализ с использованием более сложной ML-модели. Если всё хорошо, то возвращаем на сервис. Если «подозрительность» сохраняется, то показываем текстовую капчу.

НЛО прилетело и опубликовало эту надпись здесь

amidas 13 апр 2021 в 13:33

Меня яндекс довольно часто в боты записывает. Как правило это происходит если нажать возврат на предыдущую страницу и ввести новый поисковый запрос в строке браузера. Поэтому если мне надо искать в яндексе, то делаю это через DDG с ключом !ya

1name 14 апр 2021 в 07:44

роботы создают нагрузку или даже занимаются откровенным вредительством

Защита от роботов конечно же нужна, но на сколько она эффективна в плане борьбы с нагрузкой на сервис? — Если запрос отправлен/принят, то какая-то работа в любом случае будет выполнена. Капча не спасает от нагрузки на сервер, а лишь закрывает доступ к контенту для роботов, тем самым говоря программисту «не знание законов, не освобождает от ответственности» (закон об авторском праве), ну и конечно же ограждает от не/намеренного вредительства.

Казалось бы — здоров! Однако, в этом есть и минус: Если все сайты будут использовать капчу, то тот же поисковый робот Яндек не сможет получать доступ к сайтам, а значит поиск в интернете станет невозможным и для других роботов, а в конечном счёте и для пользователей.

fuser 15 апр 2021 в 08:39

капчу предлагают только тем пользователям, чьи запросы в результате быстрого анализа показались нам подозрительными

Ага, щас.
У нас выделенный статический IP. И у всего офиса после перезапуска я-браузера вылазит капча. Писал в поддержку яндекса. Ответили: ваша подсеть используется роботами. И что мне делать? В нашем городе небольшой выбор провайдеров. Мой мелкий провайдер скорее всего арендует канал у крупного прова. Мне проще поисковик сменить.

HardWrMan 15 апр 2021 в 14:26

Самое интересное, когда аплинк офиса с десятком машин внезапно перезагрузился. Например, шлюз/модем/роутер перегрузился, все машины дропнули коннект. А когда аплинк поднялся — все разом ломанулись в интернет. Я помню 15 лет назад это стабильно определяло половину юзеров ICQ во временный бан с формулировкой «слишком частые коннекты с одного IP». Вероятно, поисковик может работать тем же методом.

zoldaten 16 апр 2021 в 18:31

Так вот кто их их делает! )

НЛО прилетело и опубликовало эту надпись здесь

Alexx_ps 13 мая 2021 в 14:16

Когда смотришь на вашу капчу, начинаешь понимать зачем Бастрыкину лупа. Просто крутанул вашу капчу в Вордстате 5 раз подряд. Я вроде дальтонизмом не страдаю, но на первой картинке я вообще никакого текста не вижу. Да и на второй тоже не особо. В аду есть отдельный котел для тех кто это создал. И этим вынуждены пользоваться ваши рекламодатели — основной источник вашего дохода

HardWrMan 10 июн 2021 в 21:49

А сегодня Яндекс пытался меня утешить:

Это так мило.

pragmatik 22 мар 2022 в 15:34

Мне тоже как-то повезло с Я.Капчей, даже на память сохранил.

HardWrMan 29 мар 2022 в 12:00

Сегодня мне Яндекс выдал это:

Не знаю, связано ли это с тем, что в моём доме появилась яндекс станция с Алиской, которая меня постоянно слушает, или нет, но посыл определённо интересный.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий