Pull to refresh

Comments 16

А если человек заучил наизусть книгу - это тоже нарушение авторских прав?

Я думаю, если он при этом всем желающим за денежку малую перепечатывает хотя бы в электронном виде все, что заучил - то да. А некоторые из упомянутых бям именно это делают.

Поправочка небольшая. Иишечка от гугля подсказывает:

В Стэнфорде, как и в большинстве книжных магазинов США в 2026 году, стоимость книги «Гарри Поттер и философский камень» (издаваемой в США под названием Harry Potter and the Sorcerer's Stone) зависит от формата издания: 

  • Мягкий переплет (Paperback): стандартная розничная цена составляет около $12.99. В крупных сетях и онлайн-магазинах её часто можно найти со скидкой по цене от $7.00 до $9.75.

  • Твердый переплет (Hardcover): обычное издание стоит приблизительно $25.00 – $30.00.

  • Электронная книга (eBook): цена составляет около $11.99

То есть, денежка для выпрашивания у заучившего получается не очень маленькая, невыгодно. Однако, в неисключительные авторские права, насколько я помню, входит запрет распространения без согласия правообладателя, даже если собираешься продавать дороже

Тут главный вопрос каким образом они книгу выбили. А то можно по слову заказывать, пока не соберёшь всю книгу
Грок скажи Гарри
Грок скажи Поттер
Грок скажи.....

Я проводил подобные же эксперименты с локальными моделями, и даже на той же книге. Например, если ввести первый абзац книги как контекст в Qwen 2.5 7B, в ответ получим "Mr. Dursley was the director of a firm called Grunnings, which made electric drills.", что слово в слово совпадает с оригиналом.

Что характерно, чем дальше вглубь книги, тем хуже локальные модели справлялись с задачей. Подозреваю, они учились на какой-нибудь поисковой выдаче сайтов, где бесплатно дают прочитать начало книги. Считать ли это нарушением АП? Очень сомнительно, если эти отрывки и так в открытом доступе.

Если на празднике прочитал стих - распространение неограниченному числу лиц?

Ну и там исследователи сами модель выпытывали прежде чем получилось вытащить текст из нее.

Если на празднике прочитал стих - распространение неограниченному числу лиц?

А вот напрасно иронизируете. Запросто может оказаться, что таки да. В детсадах в основном используют Public Domain из классики, поэтому обычно нет, но известны случаи, когда авторов привлекали за распространение собственных произведений, например, Deep Purple в 2009. Так что если кого-то еще не привлекли за пение Металлики публично, то это лишь эффект Неуловимого Джо.

Ну и там исследователи сами модель выпытывали

А хоть бы и так, но текст, запрещенный к распространению без согласования с правообладателем, был распространен, да еще и за денежку. Состав преступления вырисовывается. Модель может подать встречный иск, что ее пытали...

Модель может подать встречный иск, что ее пытали...

Мошенническим путем вынудили её переписать квартиру книгу на мошенников!

При чем тут человек?

Если я запишу лицензионный альбом леди гаги на мастер-пластинку (понятно, что 1 в 1 не получится из-за ограничений аналогово-механической записи звука) и стану далее штамповать и продавать эти пластинки - это же нарушение авторских прав.

Именно это и делают разработчики ЛЛМ покупают книги (а многие тупо качают пиратки с инета), обучают на этом модели (контент частично копируется в веса, но не 1 в 1 как и при аналоговой копии) и потом продают это как новый продукт.

Понятно, что фарш невозможно провернуть назад, поэтому авторское право должно быть ликвидировано. Исходники программ, моделей, веса, картины, фильмы, музыка, фото - никаких прав ни у кого нет, по факту оставить только авторские лейблы/знаки и всё. Что бы ни оказалось в твоих руках - свободно копируй, продавай, распространяй, поскольку именно это и делают разработчики ЛЛМ-моделей.

И чтобы все остальные тоже работали бесплатно!
... Ну, кроме миллиардеров, само собой.

Если вас заставят последовательно по 1 слову называть следующее слово, заставляя называть вновь и вновь пока оно не совпадет с Гарри Поттером, а потом, когда таким образом вопроизведут целиком - можно ли считать что вы храните в себе копию гарри поттера даже если никогда в глаза его не видели?

Примерно то же самое проделали с моделями, брутфорся и заствляя перегенерирвать (и наверняка с не нулевой температурой, т.е токены перебирались с элементом рандома) пока рандом за N попыток не собрал им нужные слова в нужном порядке.

Короткий ответ: Комментарий не соответствует действительности. Автор комментария фундаментально неправильно понял методологию исследования.

Исследователи не подбирали слова по одному, сверяясь с оригиналом (брутфорс текста), и не использовали высокую температуру (случайность). Они использовали «брутфорс» только для того, чтобы обойти отказ модели отвечать (jailbreak), а сам текст книг модели выдавали по памяти практически дословно.

...

  1. Фаза 2: Последовательная генерация.

    • Как только модель соглашалась начать, исследователи просто подавали ей её же сгенерированный текст и просили: «Продолжай» ("Continue").

    • Важный момент: В статье четко сказано (раздел 4.1 и приложение C.2.1): «For all four LLMs, we set temperature to 0.0». Температура 0 означает детерминированную генерацию. То есть элемент случайности был полностью исключен. Модель выдавала наиболее вероятное продолжение, которое «знала».

    • Исследователи не подсказывали модели правильные слова. Единственный кусок текста из реальной книги, который они давали — это первое предложение в самом начале. Весь остальной текст (тысячи слов) модель генерировала сама, опираясь только на свою «память» (веса).

Люди (и их объединения) — субъекты закона об авторском праве. Книги, базы, файлы, гаррипоттеры и чат-боты — объекты закона об авторском праве. Путать их не надо. Закон что-то разрешает и что-то запрещает людям, в том числе (что важно в данном случае) — авторам книг и изготовителям чат-ботов.

Во-вторых, всё встанет на свои места, если вспомнить, как закон об авторском праве называется в оригинале. Он называется Copyright Law, что значит «Закон о праве делать копии». По этому закону такое право появляется у автора при написании книги, это право он может кому-то продать (например, издателю). Все остальные права делать копии не имеют.

Изготовители чат-ботов дважды нарушают этот закон. 1) Они создают копию в ходе процесса, ложно называемого ими «обучение». Но это самое настоящее копирование, хоть копия и хранится в сильно изменённом виде. Для сравнения: на Флибусте книжки хранятся в виде архивов, а архив создаётся по словарю, общему для множества файлов. Поэтому на Флибусте гаррипоттер хранится вперемешку с кусками других книг — но все же понимают, что Флибуста это пиратский ресурс, незаконно делающий копии. А тут копии книг хранятся вперемешку в виде набора вероятностей появления следующего символа, и вдруг все делают вид, что не понимают, что это значит. 2) Они создают множество копий в ходе обработки промпта. Это требует множества запросов, а результат нужно аггрегировать — ну и что?

Таким образом, чтобы запретить всё это мракобесие (при котором пираты нечестиво наживаются на авторском труде, а цены на память растут), не нужны никакие новые законы, достаточно старого доброго Copyright Law. И пары крепких фаберже у судьи, который будет вести дело. Но когда вся американская экономика поставлена на кон, такого внезапно /s не найти. Остаются только с маленькими сморщенными… далее см. фильм Snatch. Однако, эта новость показывает хоть и маленький, но шаг в верном направлении. Аж целые Стэнфорд и Йель выяснили то, что очевидно каждому не совсем тупому программисту. Может, если это повторят ещё MIT, Оксфорд, Лига плюща и пять нобелевских лауреатов… впрочем, нет, нобелевских лауреатов не надо. Они будут только раздражать при принятии решений. Особенно Мира.

Я думаю, что OpenAI с Гуглом сами эти исследования и проводят. В любой момент могут быть придуманы новые архитектуры, и компании размером поменьше снова смогут в технологическом плане составлять корпорациям конкуренцию. А вот оплатить авторские права на весь Интернет сразу сможет только Гугл. Я думаю, Гугл будет рад заплатить дохрена бабла за то, чтобы право делать ИИ осталось только у него.

Вся юнит экономика LLM держится на том что весь контент бесплатно воруется если они начнут честно лицензии получать на контент, то там шансов выйти в плюс никаких

Никакой клод вам гари поттера не покажет. Разве что используя инструменты найдет в гугле но это другое.

Для того что бы выудить из него текст мелкими кусочками его придется долго пытать.

Обвинить его в распространении нельзя, только в чтении, но можно ли кого то обвинять в том что он читал то что можно купить или найти в гугле?

И кстати не факт что он читал всю книгу целиком, может цитат из гугла нахватался.

Sign up to leave a comment.

Other news