Комментарии 41
Medium будет блокировать все ИИ-краулеры, он написал, что «ИИ-компании крадут ценность у авторов, чтобы спамить читателей».
ирония в том, что Medium заспамлен мусорными статьями, сгенеренными в ИИ, и вот уже с этим он ничего не собирается делать
Что-то в этой статье слишком много повторов и переливания из пустого в порожнее... Автор забыл вспомнить, что ИИ-краулеры ещё и запросы свои к сайтам направляют весьма агрессивно, что заставляет некоторых провайдеров переключать клиентов на более дорогие тарифы, способные отработать такие, хоть и разовые, но очень крупные всплески.
Существует очень простое технологическое решение: своё адресное пространство для роботов. Точнее, так: если создаётся какая-то программа, то она будет действовать в своём отдельном адресном пространстве, а пользователи живут в своём адресном пространстве. Тогда будет видно, что вот это сделал реальный пользователь (при помощи клавиатуры и мышки), потому, что эти данные ОС получила именно от клавиатуры и именно от мышки. И в этом случае будет ясно, даже, что это есть запись действий пользователя. В то время как программная эмуляция действий пользователя будет попросту идти по другому каналу. Но и тут есть такая развилка: если нужно провести тестирование, то да, надо имитировать действия пользователя, а если получить данные, то данные надо всегда получать напрямую, обращаясь к базе данных.
Но! Тогда надо, чтобы у всего был собственный API. Вот зачем роботу залезать на текущую страницу (ту, на которой мы сейчас находимся) и что-то на ней "парсить"? Незачем! Эта страница создана для людей, чтобы посмотреть, прочитать и что-то прокомментировать. А робот должен получать то, что ему нужно по API. Но! У Хабра нет никакого открытого API!
А так... очень обидно, получать сообщение "Ваши действия похожи на автоматические" с последующим предложением пройти кап(т)чу и (что, ещё хуже) "войти в свой аккаунт", даже если этого самого аккаунта никакого нет. При всё при этом, все эти навороченные платформы сами провоцируют "автоматизацию" действий пользователя, заставляя делать однотипные действия там, где должен быть развитый пользовательский интерфейс, предусматривающий обыкновенный поиск объектов требуемого типа по различным параметрам с последующим применением ко всем найденным объектам выбранного действия. Все эти сеньёры в крутых ИТ-компаниях почему-то оказываются неспособными реализовывать такие элементарные вещи.
не соглашусь. Технологическое решение для кого?
для примера: в поиске Яндекса крутят поведенческий фактор, принцип: заходят боты на ТОП 10 сайтов по фразам нужным, которые выглядят как пользователи - выходят сразу. нагуливают профиль, на другом подобном сайте - сидят долго - сайт повышается в выдаче.
но я вот про что - таких ботов пишут на Zennoposter или BAS или просто у кого то свои фермы на андройд устройствах (что редко) - просто посмотрите что это за продукты, эти боты видят контент визуально на сайте.
В вашем случае - про технологическое решение - в большинстве случаем просто блочатся заходы с HTTP 1.1 и 1.0 или делается капча. Такая часть отсекается. Только тут нужно учитывать что боты яндекса и гугла тоже используют устаревший HTTP 1. 1 - и им нужно давать приоритет.
Тогда надо, чтобы у всего был собственный API
да, это в теории могут сделать крупные ИИ боты, но смысл? Все хотят собирать информацию и монетизировать, условно ИИ бот Васи Пупкина не будет в деле.
Ваши действия похожи на автоматические - у Вас скорее всего айпи не постоянный (дома например), такая плашка может быть часто с мобильного оператора, так как айпи у вас постоянное разные оператор дает, и условный бот для ПФ - ходил с него и делал автоматизированные действия)
Все эти сеньёры в крутых ИТ-компаниях почему-то оказываются неспособными реализовывать такие элементарные вещи.
Они способны, просто им ставят другие задачи. Те, которые выгодны владельцу сайта, а не посетителю. А владельцу нужно, чтобы вы провели на сайте больше времени и посмотрели больше рекламы, а не быстро нашли что вам надо и закрыли браузер)
Видимо придём к аутентификации при входе в интернет
Да это не спасёт от краулеров, появятся свои дропы
Но в целом позволит не сжигать деньги и иметь некую защиту
Орган, на которого возложат функцию будет себя чувствовать отлично
А мы, мы адаптируемся, так как спам ИИ и не только уже доставляет не только пользу. Видимо придём к некому балансу
О да, последние полгода ИИ роботы повадились сканить все подряд с игнорированием robots.txt и маскировкой под обычного пользователя. VPSка нехило от этого нагружалась. Проблему удалось решить только включением в cloudflare капчи для Китая и Гонконга.
Это действительно работает, но если трафик посетителей из РФ - то на данный момент Cloudflare не лучшее решение - многие пользователи просто не доходят до Вашего сайта, наверное знаете почему?)
Вы просмотрели мастер-класс "как растянуть два предложения на 5000 символов"
а почему такой вариант поисковикам до сих пор не подошел:
есть администратор сайта
он сам принимает решение что отправить на индексацию в поисковик
нажимает раз в сутки одну кнопку на сайте - отправить обновления в поисковики
и так - никаких роботов не нужно вообще
за 30 лет до такого простого не додумались до сих пор?
и с ИИ тоже самое бы : одну кнопку нажал - отправил инфу на сервера ИИ
но да, так будет ответ - что нужно ведь то проверять
мало ли что я отправил поисковику
но он же сам же должен проверить то всё
ну то можно ввести какой-то протокол подтверждения корректности данных
как например протокол защиты HTTPS
это можно было сделать давно
Ваше предложение не отвечает на главный вопрос - какая с этого выгода поисковикам? Вы же предлагаете им отказаться от одного из конкурентных преимуществ и делегировать одну из ключевых задач непонятно кому. И в чём вообще будет заключаться деятельность поисковиков в таком случае? А администраторы сайтов сами должны выбирать куда отправлять данные или должен быть какой-то общий агрегатор?
администраторы сайтов сами должны выбирать
2. а какая выгода поисковикам? одна из главных постановок вопросов - об этикете
так что так, после этого - можно по теме выгоды уже как до этого не говорить
3. ну и ваша та фраза из текста об "непонятно кому". а кто такой гугл и иже с ним? так ведь и они для всего интернета - именно "непонятно кто". я их не знаю, мы и не соседи даже и в жизни их не видел ни разу. но и а главное - это они же сами решили что ОНИ мне нужны. или что ОНИ нужны каждому. но они это просто САМИ решили и стали вести себя так словно бы. непонятно кто, непонятно зачем, для чего. но да, потому что - им в этом выгода. но о чём и в сотый раз как из пустого в порожнее - но а кто им права на эти личные выгоды-то из нас-то давал? то и по-моему что - никто
администраторы сайтов сами должны выбирать
То есть, поисковики должны доверить свою судьбу левым администраторам.
2. а какая выгода поисковикам? одна из главных постановок вопросов - об этикететак что так, после этого - можно по теме выгоды уже как до этого не говорить
Не совсем понял вашу мысль. При чём тут этикет? Кто этот вопрос ставит? Это из статьи? Признаюсь, статью не читал.
ну и ваша та фраза из текста об "непонятно кому". а кто такой гугл и иже с ним? так ведь и они для всего интернета - именно "непонятно кто".
Тут главное, что они (админы, предоставляющие ключевые данные) для гугла (и любого другого поисковика) "непонятно кто".
мне кажется что в этом, всё таки что основное со статьи и комментов выносится - то что комментарием который на сейчас выходит первым ниже моего :
Самым сильным оружием тех, кто решил бороться, остаётся соглашение, заключённое три десятка лет назад первыми и наиболее оптимистичными сторонниками веба.
потому что тот файл об этике в первую очередь, а не о личных выгодах непонятно кого во второй
кнопка-аддурилка (addUrl) есть во всех поисковиках. Ну, раньше была, давно не проверял. Пользуются ей в основном сео-спамеры, которым надо поскорее сунуть в серп своё свежее овно.
Самым сильным оружием тех, кто решил бороться, остаётся соглашение, заключённое три десятка лет назад первыми и наиболее оптимистичными сторонниками веба.
Бороться можно и нужно.
Robots.txt:
User-agent: GPTBot Disallow: /
User-agent: OAI-SearchBot Disallow: /
User-agent: CCBot Disallow: /
User-agent: ClaudeBot Disallow: /
User-agent: Claude-User Disallow: /
User-agent: Claude-SearchBot Disallow: /
User-agent: Google-Extended Disallow: /.htaccess:
RewriteEngine On
RewriteCond %{HTTP_USER_AGENT} (GPTBot|OAI-SearchBot|ChatGPT-User|ClaudeBot|Claude-User|Claude-SearchBot|PerplexityBot|CCBot|Google-Extended) [NC]
RewriteRule .* - [F,L]Для OLS (Open LitespeedServer):
context / {
allowBrowse 1
extraHeaders <<<END_extraHeaders
set X-Robots-Tag "noai, noimageai" always
set tdm-reservation "1" always
END_extraHeaders
}Тут самое главное при борьбе с ИИ ботами:
set X-Robots-Tag "noai, noimageai" always
set tdm-reservation "1" always - это персонально для европы, иначе, из за их законов анус не прищемить уродам.
Для apache+nginх думаю сами сваяете, ну и роботов для блока не проблема добавить
А почему у вас Disallow не на следующей строке?
А зачем блокировать? отдавайте им нейрослоп.
Самым сильным оружием тех, кто решил бороться, остаётся соглашение, заключённое три десятка лет назад первыми и наиболее оптимистичными сторонниками веба.
да, именно так, потому что так разговор переходит с поля технологий в поле просто этики
и так уже почти невозможно отмахнутся, от
Вся проблема в том, что robots.txt носит рекомендательный характер. Краулер может считаться с содержащимися в нём директивами, а может и не. В отличие, скажем, от htaccess (там, где он работает, естественно) либо серверных запретов. Если robots.txt – это что-то вроде «пожалуйста, по возможности не ходите туда», то htaccess – это категорическое и непреодолимое «Стоять! Входа нет!» И вот в этой связке robots.txt может обрести свою вторую жизнь: если его директивы будут неизменно сопровождаться соответствующими серверными запретами, если вместо смущённого «нельзя ли вас попросить не заходить туда?» – будет тихое, но весомое «туда не ходи, хуже будет, ну смотри, я тебя предупредил» и последующий предупредительный бан на пару суток за неповиновение, другими словами, когда из тихого шелеста robots.txt превратится в предупреждающее шипение кобры перед броском – вот тогда с ним снова начнут считаться. И никак иначе.
Достаточно роботу использовать любой user-agent и никакой htaccess его не остановит.
htaccess не остановит, но он – не последний бастион защиты. Окончательное решение принимается серверным сценарием, а у того одной из базовых аксиом должно быть стопроцентное недоверие к UserAgent как к параметру, значение которого гости могут выбирать себе произвольно. Соответственно, у ботов должна быть дилемма: либо ты подделываешь свой UserAgent – и в этом случае сервер определяет твои права по своду крайне жёстких правил, предназначенных для интернет-сброда, с риском принудительных тормозов, отказов и долговременного бана, – либо предъявляешь свой подлинный UserAgent, и тогда в совокупности с IP сети, откуда ты пришёл, попадаешь в подгруппу не самых желательных, но имеющих некие минимальные послабления гостей.
Нет никакой дилеммы. Боты просто будут (и думаю уже так делают) user-agent от браузеров.
да так и есть, тут фильтровать нужно: капчами или блокировками по: ASN сетям, странам, отпечаткам и другим функционалом
У меня лично половина таких ботов отфильтровывается первыми двумя-тремя алгоритмами, оставшиеся либо соблюдают метрики, соответствующие человеческому поведению (что меня вполне устраивает) – паузы между просмотрами, сохранение неизменного UserAgent на протяжении всего сеанса и пр. – либо нарываются на следующие фильтры. Это означает, что большинство ботов может получать контент порциями по пять-десять страниц с большими временными промежутками – но смысл таких визитов для них сводится к минимуму.
Всё верно, robots.txt умер - ИИ стремятся выкачать всю информацию с сайта, создать на него нагрузку, а взамен - пожалуйста! Только вот обычные владельцы сайтов - это еще не понимают и пытаются блокировать ботов как раз через этот файл - в интернете документация старая.
Раньше через Cloudflare настраивали фильтрацию и разгружали сервер от этого шлака, сейчас уже свои аналоги Cloudflare через прокси сервер. Тут Важно знать официальных ПС ботов - и не блокировать их.
Многие пишут в комментариях правила для блокировки по User Agent - но можно задать любой агент пользователя. Далеко ходить не буду, deepseek не использует очевидный User Agent, блок по: Название провайдера:Huawei-Cloud-SG ASN:136907
Во пример дипсика, но у меня блок не по ASN а по стране в этом случае:

Всех через .htaccess не заблочишь, сайт начнет тормозить - обработка правил каждый раз происходит при заходе пользователя - проходя все строки.
Фантазии о том, что если файл называется robots то все боты должны его учитывать, остается фантазией автора. Это файл для роботов поисковых систем, которые заявляет о том что учитывает информацию в нем. Все остальное вода. Проблема сканирования сайта иными ботами никак не связана с этим. И решение проблемы совсем иное. Если утверждаете что он умирает - удаляйте его. Посмотрим сколько мусора у вашего сайта появится в выдаче
Странная статья , как будто автор путает теплое с мягким. Robots.txt прежде всего нужен для поисковых систем и пока люди ими пользуются ,robots txt будет нужен. У ИИ совсем другие цели поэтому им нужен совсем другой протокол, другой список сценариев. Мне непонятно зачем автор сознательно путает поисковые боты и боты ИИ? Заголовок заведомо кликбейтный. Пусть автор посмотрит сколько на рынке SEO- агентств , seo-специалистов и спросит занимаются ли robots и собирается ли robots помирать ?
Мне непонятно зачем автор сознательно путает поисковые боты и боты ИИ?
Потому что это может быть один и тот же бот?
Bingbot компании Microsoft — это и краулер поисковика, и ИИ-краулер.
Если у меня и поисковик, и ИИ-модель, зачем мне парсить твой сайт дважды, если я могу скачать все один раз?
Похоже вы не знаете мат.часть. Даже при парсинге сайта у Гугла и Яндекса отдельные боты под картинки, основной бот и так далее , только у яндекса 6-7 ботов.
Некоторые краулеры Яндекса:
Yandex/1.01.001 (compatible; Win16; I) — центральный поисковый продукт Яндекса, который индексирует контент.
Yandex/1.01.001 (compatible; Win16; P) — робот, который индексирует картинки и фотографии.
Yandex/1.01.001 (compatible; Win16; H) — отыскивает зеркала и дубли ресурса.
Yandex/1.03.003 (compatible; Win16; D) — первый паук, который приходит на ресурс после добавления его через раздел вебмастера. Его задачи — проверка добавленных параметров, указанных в панели, на соответствие.
Yandex/1.03.000 (compatible; Win16; M) — краулер, который посещает страницу после её загрузки по ссылке «Найденные слова» в поисковой выдаче.
YaDirectBot/1.0 (compatible; Win16; I) — индексирует сайты из рекламной сети Яндекса (РСЯ).
Yandex/1.02.000 (compatible; Win16; F) — бот сканирует фавиконы сайтов.
2. В российском SEO два основных источника трафика. Яндекс и Google, если речь про robots.txt, то пример с Бингом не совсем релевантный. Потому что большинству сео-специалистов мало интересны боты от бинга.
На сколько у меня есть информация роботс для ИИ-ботов сейчас используется в основном как ограничитель
Ну да, конечно, ИИ боты это обычные пользователи, с теми юзер-агентами, которые они декларируют, и конечно же они не переключаются между разными IP, продолжая докачивать страницу. Но нет это не роботы, "просьба отнестись с пониманием".
а вы не помните сколько было Flash-дизайнстудий и Flash-контента, но ничего не помешало и в таком случае похоронить и не настолько простой текстовый файл
Заметил, что на сайтах некоторых проектов, с которыми я в последнее время работал, нет файла robots.txt. Команды, которые админят эти сайты, говорят, что смысла в нем уже нет. И так и так боты залезут во все страницы, до которых смогут дотянуться.
Надо бы как-нибудь поставить эксперимент. Создать простенький сайт с robots.txt, который запрещает все, кроме главной страницы. В этом сайте создать несколько страниц и логировать их посещения, записывая UserAgent.
Создать простенький сайт с robots.txt, который запрещает все, кроме главной страницы. В этом сайте создать несколько страниц и логировать их посещения, записывая UserAgent.
Нужно ещё откуда-то взять трафик на этот "простенький сайт", а то получится Неуловимый Джо, которого не ловят, так как никому он не нужен.
Тихая смерть robots.txt