Как стать автором
Обновить

Комментарии 16

Типа что-то помешает ему мимикрировать под реальный браузер, если прям так захочется. А OpenAI прям честные во все поля.

Если OpenAI сами рассказали как можно контролировать доступ, то зачем тогде им подделывать UA?

Странное рассуждение. С таким подходом лучше сайты вообще в общий доступ не открывать, а то ведь "все не честные".

Если OpenAI сами рассказали как можно контролировать доступ, то зачем тогде им подделывать UA?

Чтобы люди не возмущались что ктото обучает AI на их данных.

Такие махинации быстро вскрываются. Результаты могут быть очень печальны для тех кто врал. А могут и не быть. Думаете OpenAI вместе с MS готовы рискнуть?

Они уже рискнули, создав это. Джина в бутылку уже не вернуть, приходится огораживать флажками.

Есть ньюанс.

Писать программы нормально. Пиарить и зарабатывать на них тоже нормально. В чем риск непонятно. Это обычная программа.

Публично врать всем ненормально. На таком крупных ребят (а за ними MS стоит сейчас) ловят примерно никогда.

Так именно для этого OpenAI и предоставила инструмент для контроля. Зачем предоставлять инструмент если самим его не поддерживать?

Просто не очень понимаю зачем искать заговор там, где его нет.

  1. Чтобы не подгнималасбь буча вокруг этого, мы вот вам инструмент дали, вы можете себя от нас обезапасить. Спите жители богдада в богдадае всё спокойно.


  2. Чтобы не мешали выискивали этих самых AI в куче поисковых ботов и не пытались им мешать другими методами. Вот наши боты использует такой UA вы всё видите всё честно и прозрачно.



Просто не очень понимаю зачем искать заговор там, где его нет.

Нет доказательств что он есть, также нет что его нет. Мне тяжело верить компании которая зарабатывает(в какойто степени как минимум) на парсинге(пофиг какими инструментами) сайтов. Как говорится если я вру, почему я должен думать, что остальные говорят правду?

Честные, сам видел лог где ChatGPT смотрит на robots.txt

Потому что есть некоторые формально-неписанные правила как robots.txt использовать но на практике — их соблюдают. И были случаи с гуглом например когда в ответ на претензии к ним — они говорили что не хотите — вот ссылка на гайд как заблокировать хождения бота, и это в суде прокатывало.
Были правда и попытки некоторых новостных организацией сделать типа-более-правильный (и более сложный в реализации) стандарт — никто из поисковиков (кроме excite — которым похоже хотелось показать что еще живы) — не поддержал.
А есть способы защиты от ботов вроде тех что cloudflare использует… там сложно обойти достаточно, можно, но это надо имитировать полноценный браузер.

Какие-то они хитрожопые, копирайты на сайте для кого вешаны

Да, для кого? Для робота?

Для создателей робота.

А кто вам сказал что создатели про конкретный сайт вообще в курсе а робот не пришел по ссылкам?

Кстати, можно включить в статью инфо о HTTP-заголовке User-Agent, который ChatGPT использует при хождении по HTTP сайтам:

Full user-agent string: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)

Об этом написано на странице официальной документации. Там же есть ссылка на список IP-адресов, с которых ChatGPT может нагрянуть в гости.

Актуально для страниц после 2021 года?)

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Другие новости

Истории