runaway_llm Jan 26 at 08:29

95,8% «Гарри Поттера» из Claude: в Стэнфорде показали, что ИИ хранят книги целиком

1 min

5.7K

Artificial IntelligenceMachine learning *

Comments 16

bak Jan 26 at 08:56

А если человек заучил наизусть книгу - это тоже нарушение авторских прав?

RomeoGolf Jan 26 at 08:59

Я думаю, если он при этом всем желающим за денежку малую перепечатывает хотя бы в электронном виде все, что заучил - то да. А некоторые из упомянутых бям именно это делают.

RomeoGolf Jan 26 at 09:10

Поправочка небольшая. Иишечка от гугля подсказывает:

В Стэнфорде, как и в большинстве книжных магазинов США в 2026 году, стоимость книги «Гарри Поттер и философский камень» (издаваемой в США под названием Harry Potter and the Sorcerer's Stone) зависит от формата издания:

Мягкий переплет (Paperback): стандартная розничная цена составляет около $12.99. В крупных сетях и онлайн-магазинах её часто можно найти со скидкой по цене от $7.00 до $9.75.
Твердый переплет (Hardcover): обычное издание стоит приблизительно $25.00 – $30.00.
Электронная книга (eBook): цена составляет около $11.99.

То есть, денежка для выпрашивания у заучившего получается не очень маленькая, невыгодно. Однако, в неисключительные авторские права, насколько я помню, входит запрет распространения без согласия правообладателя, даже если собираешься продавать дороже

BlackMokona Jan 26 at 09:14

Тут главный вопрос каким образом они книгу выбили. А то можно по слову заказывать, пока не соберёшь всю книгу
Грок скажи Гарри
Грок скажи Поттер
Грок скажи.....

Sadler Jan 26 at 11:09

Я проводил подобные же эксперименты с локальными моделями, и даже на той же книге. Например, если ввести первый абзац книги как контекст в Qwen 2.5 7B, в ответ получим "Mr. Dursley was the director of a firm called Grunnings, which made electric drills.", что слово в слово совпадает с оригиналом.

Что характерно, чем дальше вглубь книги, тем хуже локальные модели справлялись с задачей. Подозреваю, они учились на какой-нибудь поисковой выдаче сайтов, где бесплатно дают прочитать начало книги. Считать ли это нарушением АП? Очень сомнительно, если эти отрывки и так в открытом доступе.

bak Jan 26 at 09:11

Если на празднике прочитал стих - распространение неограниченному числу лиц?

Ну и там исследователи сами модель выпытывали прежде чем получилось вытащить текст из нее.

RomeoGolf Jan 26 at 10:18

Если на празднике прочитал стих - распространение неограниченному числу лиц?

А вот напрасно иронизируете. Запросто может оказаться, что таки да. В детсадах в основном используют Public Domain из классики, поэтому обычно нет, но известны случаи, когда авторов привлекали за распространение собственных произведений, например, Deep Purple в 2009. Так что если кого-то еще не привлекли за пение Металлики публично, то это лишь эффект Неуловимого Джо.

Ну и там исследователи сами модель выпытывали

А хоть бы и так, но текст, запрещенный к распространению без согласования с правообладателем, был распространен, да еще и за денежку. Состав преступления вырисовывается. Модель может подать встречный иск, что ее пытали...

bak Jan 26 at 10:21

Модель может подать встречный иск, что ее пытали...

Мошенническим путем вынудили её переписать ~~квартиру~~ книгу на мошенников!

poruchik Jan 26 at 09:18

При чем тут человек?

Если я запишу лицензионный альбом леди гаги на мастер-пластинку (понятно, что 1 в 1 не получится из-за ограничений аналогово-механической записи звука) и стану далее штамповать и продавать эти пластинки - это же нарушение авторских прав.

Именно это и делают разработчики ЛЛМ покупают книги (а многие тупо качают пиратки с инета), обучают на этом модели (контент частично копируется в веса, но не 1 в 1 как и при аналоговой копии) и потом продают это как новый продукт.

Понятно, что фарш невозможно провернуть назад, поэтому авторское право должно быть ликвидировано. Исходники программ, моделей, веса, картины, фильмы, музыка, фото - никаких прав ни у кого нет, по факту оставить только авторские лейблы/знаки и всё. Что бы ни оказалось в твоих руках - свободно копируй, продавай, распространяй, поскольку именно это и делают разработчики ЛЛМ-моделей.

Drayden Jan 26 at 12:26

И чтобы все остальные тоже работали бесплатно!
... Ну, кроме миллиардеров, само собой.

logran Jan 26 at 12:43

Если вас заставят последовательно по 1 слову называть следующее слово, заставляя называть вновь и вновь пока оно не совпадет с Гарри Поттером, а потом, когда таким образом вопроизведут целиком - можно ли считать что вы храните в себе копию гарри поттера даже если никогда в глаза его не видели?

Примерно то же самое проделали с моделями, брутфорся и заствляя перегенерирвать (и наверняка с не нулевой температурой, т.е токены перебирались с элементом рандома) пока рандом за N попыток не собрал им нужные слова в нужном порядке.

poruchik Jan 26 at 15:56

Короткий ответ: Комментарий не соответствует действительности. Автор комментария фундаментально неправильно понял методологию исследования.

Исследователи не подбирали слова по одному, сверяясь с оригиналом (брутфорс текста), и не использовали высокую температуру (случайность). Они использовали «брутфорс» только для того, чтобы обойти отказ модели отвечать (jailbreak), а сам текст книг модели выдавали по памяти практически дословно.

...

Фаза 2: Последовательная генерация.
- Как только модель соглашалась начать, исследователи просто подавали ей её же сгенерированный текст и просили: «Продолжай» ("Continue").
- Важный момент: В статье четко сказано (раздел 4.1 и приложение C.2.1): «For all four LLMs, we set temperature to 0.0». Температура 0 означает детерминированную генерацию. То есть элемент случайности был полностью исключен. Модель выдавала наиболее вероятное продолжение, которое «знала».
- Исследователи не подсказывали модели правильные слова. Единственный кусок текста из реальной книги, который они давали — это первое предложение в самом начале. Весь остальной текст (тысячи слов) модель генерировала сама, опираясь только на свою «память» (веса).

ImagineTables Jan 26 at 10:40

Люди (и их объединения) — субъекты закона об авторском праве. Книги, базы, файлы, гаррипоттеры и чат-боты — объекты закона об авторском праве. Путать их не надо. Закон что-то разрешает и что-то запрещает людям, в том числе (что важно в данном случае) — авторам книг и изготовителям чат-ботов.

Во-вторых, всё встанет на свои места, если вспомнить, как закон об авторском праве называется в оригинале. Он называется Copyright Law, что значит «Закон о праве делать копии». По этому закону такое право появляется у автора при написании книги, это право он может кому-то продать (например, издателю). Все остальные права делать копии не имеют.

Изготовители чат-ботов дважды нарушают этот закон. 1) Они создают копию в ходе процесса, ложно называемого ими «обучение». Но это самое настоящее копирование, хоть копия и хранится в сильно изменённом виде. Для сравнения: на Флибусте книжки хранятся в виде архивов, а архив создаётся по словарю, общему для множества файлов. Поэтому на Флибусте гаррипоттер хранится вперемешку с кусками других книг — но все же понимают, что Флибуста это пиратский ресурс, незаконно делающий копии. А тут копии книг хранятся вперемешку в виде набора вероятностей появления следующего символа, и вдруг все делают вид, что не понимают, что это значит. 2) Они создают множество копий в ходе обработки промпта. Это требует множества запросов, а результат нужно аггрегировать — ну и что?

Таким образом, чтобы запретить всё это мракобесие (при котором пираты нечестиво наживаются на авторском труде, а цены на память растут), не нужны никакие новые законы, достаточно старого доброго Copyright Law. И пары крепких фаберже у судьи, который будет вести дело. Но когда вся американская экономика поставлена на кон, такого внезапно /s не найти. Остаются только с маленькими сморщенными… далее см. фильм Snatch. Однако, эта новость показывает хоть и маленький, но шаг в верном направлении. Аж целые Стэнфорд и Йель выяснили то, что очевидно каждому не совсем тупому программисту. Может, если это повторят ещё MIT, Оксфорд, Лига плюща и пять нобелевских лауреатов… впрочем, нет, нобелевских лауреатов не надо. Они будут только раздражать при принятии решений. Особенно Мира.

MountainGoat Jan 26 at 09:14

Я думаю, что OpenAI с Гуглом сами эти исследования и проводят. В любой момент могут быть придуманы новые архитектуры, и компании размером поменьше снова смогут в технологическом плане составлять корпорациям конкуренцию. А вот оплатить авторские права на весь Интернет сразу сможет только Гугл. Я думаю, Гугл будет рад заплатить дохрена бабла за то, чтобы право делать ИИ осталось только у него.

dzaytsev91 Jan 26 at 11:07

Вся юнит экономика LLM держится на том что весь контент бесплатно воруется если они начнут честно лицензии получать на контент, то там шансов выйти в плюс никаких

K0Jlya9 Jan 26 at 14:54

Никакой клод вам гари поттера не покажет. Разве что используя инструменты найдет в гугле но это другое.

Для того что бы выудить из него текст мелкими кусочками его придется долго пытать.

Обвинить его в распространении нельзя, только в чтении, но можно ли кого то обвинять в том что он читал то что можно купить или найти в гугле?

И кстати не факт что он читал всю книгу целиком, может цитат из гугла нахватался.