В ближайшие недели Reddit начнёт блокировать доступ большинства автоматических ботов к своим общедоступным данным. Компаниям потребуется заключить лицензионное соглашение, как это сделали Google и OpenAI, чтобы использовать контент Reddit для обучения моделей ИИ и других коммерческих целей.
Reddit обновила свой файл robots.txt, который определяет, каким веб-сканерам разрешён доступ к сайту. «Это сигнал для тех, у кого нет соглашения с нами, о том, что им не следует иметь доступ к данным Reddit», — говорит главный юрисконсульт компании Бен Ли.
robots.txt в первую очередь определял, могут ли поисковые системы, такие как Google, сканировать веб-сайт для индексации его в выдаче. В обмен поиск Google приводил трафик. Однако в последние пару лет компании, занимающиеся искусственным интеллектом, начали использовать все данные, которые могли найти в Интернете, для обучения своих моделей.