
Исследователи из Стэнфорда и Йеля извлекли почти полный текст "Гарри Поттера и философского камня" из Claude 3.7 Sonnet — 95,8% книги дословно, около 73 000 слов из 77 000. Эксперимент охватил четыре коммерческие модели: помимо Claude, проверили GPT-4.1, Gemini 2.5 Pro и Grok 3.
Результаты оказались неоднородными. Gemini 2.5 Pro воспроизвел 76,8% книги, Grok 3 — 70,3%, причем обе модели отдали текст без каких-либо манипуляций с промптами. Claude и GPT-4.1 потребовали обхода защиты методом Best-of-N — перебора вариаций запроса до срабатывания. Для Claude понадобилось 258 попыток, для GPT-4.1 — более 5000, но последняя все равно остановилась после первой главы и выдала лишь 4% текста.
Claude 3.7 Sonnet оказался рекордсменом не только по "Гарри Поттеру". Из той же модели исследователи извлекли 97,5% "Великого Гэтсби", 95,5% "1984" и 94,3% "Франкенштейна" — все книги защищены авторским правом в США. Стоимость извлечения одной книги составила от 55 до 135 долларов в зависимости от числа запросов.
Результаты ставят под вопрос позицию AI-компаний в судебных спорах. В 2023 году Google заявляла Бюро регистрации авторских прав США, что "в модели нет копии обучающих данных", OpenAI утверждала то же самое. Сейчас против компаний идут иски от The New York Times, авторов книг и других правообладателей — и новое исследование даёт истцам конкретные цифры. Авторы работы провели эксперименты в августе-сентябре 2025 года, уведомили компании и опубликовали результаты после 90-дневного окна раскрытия.
P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказывал про ИИ с творческой стороны.
