В начале июля 2024 года сетевая платформа Cloudflare (поставщик облачных услуг по предоставлению DNS и защиты от DDoS-атак) открыла доступ своим клиентам к опции по бесплатной блокировке веб-сканеров поисковых ботов с ИИ. Новая система защиты позволяет запрещать таким ботам извлекать данные для обучения своих ИИ-моделей без согласия владельцев сайтов.
В Cloudflare пояснили, что крупные игроки в сфере ИИ, такие как Google, OpenAI и Apple, позволяют владельцам сайтов блокировать ботов через специальный файл robots.txt. Оказалось, что не все владельцы подобных ботов и ИИ-агентов соблюдают эти правила. Cloudflare сообщила, что некоторые компании для обучения своих ИИ-моделей намеренно обходят ограничения доступа к контенту, постоянно адаптируясь и меняя свои алгоритмы, чтобы избежать обнаружения со стороны администраторов сайтов.
Cloudflare проанализировала трафик таких неправильных ботов и разработала автоматические модели их обнаружения, которые учитывают различные факторы, в том числе включая попытки ботов имитировать действия человека, использующего веб-браузер.
В Cloudflare представили специальную форму для отправки отчёта, позволяющую сообщить о подозрительных ботах и сканерах. На основе полученных от пользователей данных специалисты Cloudflare будут вручную заносить таких ботов с ИИ в чёрный список или убирать оттуда тех ботов, которые попали по ошибке.
В начале мая Роскомнадзор порекомендовал хостинг-провайдерам из реестра ведомства, которым разрешено официально оказывать услуги в РФ. ограничить сбор информации с российских ресурсов иностранными ботами, включая поисковые и веб-сканеры Google, OpenAI и Apple. В ближайшее время провайдеры в РФ должны провести анализ рисков на своих сетях и в случае обнаружения применить новые правила блокировки ботов.
Согласно рекомендациям Центра управления связью общего пользования (ЦМУ ССОП) Роскомнадзора, российским провайдерам «необходимо провести анализ рисков в своей зоне ответственности и при их обнаружении применить правила блокировки сбора сведений поисковыми ботами». В письме ЦМУ ССОП приведён и список идентификаторов (User-agent), по которым можно отличить вредоносных роботов и сканеры уязвимостей (642 идентификатора). Эксперты СМИ уточнили, что список, разосланный Роскомнадзором провайдерам, совпадает с публично доступным перечнем, опубликованным на сервисе GitHub.