
Reddit заявляет, что компании, занимающиеся ИИ, извлекают данные из Wayback Machine в нарушение правил платформы, поэтому собирается запретить Internet Archive индексировать большую часть Reddit, сообщает The Verge.
Архив Wayback Machine больше не сможет сканировать страницы с подробными описаниями постов, комментариями или профилями на Reddit. Internet Archive сможет индексировать только главную страницу Reddit.com, то есть только информацию о том, какие заголовки новостей и посты были наиболее популярны в тот или иной день.
«Нам известно о случаях, когда компании, занимающиеся искусственным интеллектом, нарушают правила платформы, в том числе наши, и извлекают данные из Wayback Machine», — сообщил The Verge представитель компании Тим Ратшмидт.
Задача Internet Archive — хранить цифровой архив веб-сайтов в интернете и «других культурных артефактов», а Wayback Machine — это инструмент, с помощью которого можно просматривать страницы в том виде, в котором они были доступны в определённые даты. Однако Reddit считает, что не весь его контент должен быть заархивирован таким образом. «Пока они не смогут защитить свой сайт и соблюдать правила платформы (например, уважать конфиденциальность пользователей, удалять удалённый контент), мы ограничиваем их доступ к данным Reddit, чтобы защитить пользователей», — говорит Ратшмидт.
По словам Ратшмидта, Reddit уведомил Internet Archive об ограничениях. В прошлом Reddit также «высказывал опасения» по поводу возможности пользователей извлекать контент из Internet Archive.
Ранее Reddit заключил сделку с Google о предоставлении данных для обучения искусственного интеллекта. Как сообщает Bloomberg, стоимость лицензии составила $60 млн в год.
В начале июня 2025 года Reddit подал иск к Anthropic, обвинив стартап в несанкционированном использовании материалов с платформы для обучения нейросети Claude. Речь идёт о более чем 100 тыс. обращений к ресурсу с июля 2024 года — после того, как Anthropic якобы запретила веб-сканирование Reddit.
Reddit намерен строго контролировать публикацию контента на платформе. Компания планирует ввести систему верификации, чтобы убедиться, что посты на форумах публикуют люди.