Как стать автором
Поиск
Написать публикацию
Обновить

Anthropic выкупила, отсканировала и потом уничтожила миллионы физических книг для обучения своего ИИ Claude

Время на прочтение2 мин
Количество просмотров37K
Всего голосов 35: ↑34 и ↓1+45
Комментарии211

Комментарии 211

Почему нельзя было взять электронные версии этих книг? Миллон книг только привезти уже грандиозные расходы

Купленная тобой бумажная книга - она реально твоя книга, делай с ней что хочешь.

А электронные версии книг зачастую с такими лицензиями продают, что её даже в кругу семьи вслух прочитать противозаконно :))) Плюс всякие DRM-защиты.

Ну тут формально вопрос в другом, вы можете использовать книги как физический объект любым образом (сделать из нее оригами или сжечь), а использование содержимого книги в общем случае ограничено частным пользованием (или ограниченным публичным воспроизведение) в некоммерческих целях.

В момент передачи или продажи вы не наделяете нового владельца какими-то дополнительными правами как "истинный владелец" книги, вы лишь передаете физический носитель, а на содержимое распространяются все те же права и обязанности. Так что физический или цифровой носитель большой разницы нет, просто цифровые носители появились позже и не имеют дополнительных сложностей при копировании, поэтому и законодательная база более "свежая" и "продуманная" (по факту более ограниченная).

Ребята скопировали содержимое, подвергли его автоматической обработке и на основе вторичных (по сути статистических) данных построили предсказательную модель. По сути можно было взять сразу цифровую копию и пропустить первые 2 шага, но это сделано было именно для возможности построения защиты за счет использования дыр в старом законодательстве. А дальше начинаются скользкие вопросики на грани юридических формулировок:
- Частное ли это использование? Ну вроде как оригинальный текст книг не выходит за пределы компании.
- Разрешен (или ограничен) подобный вариант пользования? Ну вроде как никто не запрещал считать количество слов в книгах (раньше).
- Публичное ли это воспроизведение? Ну вроде как без специальных настроек модель не сможет воспроизвести всю книгу целиком, а вот отдельный параграф вполне возможно. Но это частный случай, такая возможность не является основным продуктом компании.
- Коммерческое ли это использование? Ну вроде как никто не запрещает коммерческим компаниям покупать книги, но при условии что книга не является прямым инструментом извлечения прибыли (трактовка способов тут очень широкая, включая адаптацию, исследование и аналитику). То есть пока у вас в цепочке "книга - ... - прибыль" есть человек (который не может наизусть запомнить текст) все норм.
И вот тут как раз основная проблема, информация из книги является частью продукта, хотя оспорить права на уровне одной книги проблематично, а вот на уровне крупного издателя (группы издателей + владельцев прав) уже другой разговор.

То есть пересказ или школьное сочинение могут нарушать copyright?

В рамках образовательного процесса это будет попадать в категорию личного обучения, для некоммерческих целей и для непубличного распространения (другие ученики - это ограниченный круг лиц опять же в рамках учебного процесса).

А если выложить это в интернет, то там уже могут быть проблемы. Но обычно для этого нужно выполнить еще пару условий, типа не спросили согласия на публикацию, опубликовали пересказ всего текста, а не фрагмента, в связи с чем автор может недополучить продажи :) Хотя нужно помнить что не обязательно нарушать все условия сразу, просто без коммерческой выгоды это легкое нарушение и небольшие штрафы.
https://www.advgazeta.ru/ag-expert/advices/kompensatsiya-6-500-000-rubley-za-pereskaz-knig/

для некоммерческих целей

Почему некоммерческих? Я потом на основе этих знаний денег буду зарабатывать. В общем мутная тема, как и всегда всё, что касается интеллектуальной собственности.

Вы тоже используете информацию из институтских учебников чтобы работать и получать доход. Книги для этого и издаются.

Книги для этого и издаются

В наше вреамя книги издаются только для извлечения прибыли, елси не считать крошеяный процент самиздата для удовлетворения творческих потребночтей или ЧСВ. Что худлит, что справочники, что институтские учебники

Из какого пункта вы сделали такой вывод?

Ну тут формально вопрос в другом, вы можете использовать книги как физический объект любым образом

John Deere, Apple и прочие категорически с Вами не согласны. Речь о так называемом праве на ремонт. Хотя, это и не книги...

там точно есть обфускация. есть ли там юридические запреты на ремонт?

Там не только технические меры - точнее, с ними напрямую завязаны юридические: DMCA запрещает взлом защиты кода (даже без распространения взломанного, чисто для себя).

А право на ремонт как таковое никто не запрещает. Впрочем, и гарантировать его только в последнее время пытаются заставить.

John Deere, Apple и прочие категорически с Вами не согласны

тут несколько не так, вы без проблем можете сами чинить трактор и продукцию эппл и вообще делать с ними что хотите.

а вот оказание услуг по их ремонту сторонним людям, это уже нарушение всяких патентов и взлом ПО

история с тракторами была в том что

1) если вы ремонтируете не у официалов - вы слетаете с гарантии

2) неофициалы взламывают ЭБУ тракторов чем нарушают законодательство при этом зарабатывают на этом деньги

  1. если вы ремонтируете не у официалов - вы слетаете с гарантии

По россиским законам, кстати, это незаконно. Нет такого понятия как "слететь с гарантии". Могут наступить ограничения на гарантийные обязательства в том случае, если будет доказано (дилером), что ваши действия (не оригинальное масло, сторонние тормозные колодки и/или обслуживание машины не у дилера) привело к неисправности.
И то, гарантия не будет распространяться на агрегат. Условно говоря, использование не оригинального масла и замена его самостоятельно не мешает ремонтировать подвеску или магнитолу по-гарантии.

Ну тут формально вопрос в другом, вы можете использовать книги как физический объект любым образом (сделать из нее оригами или сжечь), а использование содержимого книги в общем случае ограничено частным пользованием (или ограниченным публичным воспроизведение) в некоммерческих целях.

Есть существенная разница между продажей бумажной и электронной книги. Покупая бумажную книгу ты не соглашаешься с лицензионным соглашением, твои права ограничены только законодательством, а используя электронные книги скорее всего соглашаешься с лицензионным соглашением, которое добавляет дополнительные ограничения. То есть, при использовании бумажных книг по логике вещей меньше ограничений, чем при использовании электронных.

Да скорей всего ничего они и не сканировали, может быть сравнительно небольшое количество для книг, а купили книги для создания видимости

Интересно, получается, что нельзя пользоваться знаниями полученными из книг для извлечения прибыли. Это же компрометирует всю систему образования, или я что-то не так понял?

Лицензия вида
Не читать вслух

Содержимое книги ж покрыто теми самыми ограничениями. Это как с софтом - если купил его над иске это не значит что можешь ставить его всем желающим за денежку, это уже пиратство. Думаю, речь идёт о книгах, которые проблематично достать в электронном виде.

Похоже что в каждой новой книге будет 117 страниц контракта ограничивающего возможности использования этой книги

QR -код, ведущий на страницу издательства с текстом соглашения.

Купил недавно кондиционер - в комплекте бумажная инструкция, в которой QR код на загрузку инструкции.

надо понимать для этого миллиона электронной версии еще не было, вот и сделали первую. Но в целом, это конечно 451° в действии. Тем более, если они скупали оптом подержанные, то кто бы там проверял остались ли вообще ещё копии в библиотеках, или они радостно уничтожили последнюю.

Мне скорей "Конец радуг" Винджа вспомнился, особенно при виде иллюстрации к статье.

Ага, вся фантастика стала (или уже становится) реальностью, и добрая, и злая.
А то, о чем рассказано в новости (в статье) мне совсем не понравилось, как то все это дико выглядит.
Сейчас возьмут и сделают это обычной практикой. А потом и книг не останется - зачем они, когда есть нейросети, все, что надо - скажут в самом лучшем виде.

А в США не должен быть обязательный экземпляр для Библиотеки Конгресса, как в РФ для РНБ и РГБ?

Из текста статьи следует, что компания покупала бумажные версии книг для обхода юридических сложностей, т.е. тех, которые имеют электронные версии — в том числе, а скорее всего в основном. Какие-такие секретные тексты?

У вас другая информация?

в 451 сжигали абсолютно все книги. Здесь купили по одном экземпляру и потом уничтожили, чтобы не хранить. Вернее, уничтожили уже в процессе сканирования - вырезали страницы, чтобы было удобнее сканировать.

Ни с остальными книгами, ни с самим произведением ничего не произошло.

Никакой связи.

Скорее всего, потому, что электронные версии не передаются в собственность, а лицензируются, что накладывает массу ограничений.

Более того, электронные книги уже давно заражены нейроподелками. В бумаге, как понимаю, их почти не печатают. Да в бумаге и отфильтровать их проще.

Я не уверен, но есть вероятность, что та самая доктрина "первой продажи" в американском праве распространяется только на обычные, бумажные книги, а не на их электронные версии, чьё использование регулируется лицензиями и различными соглашениями при покупке электронной копии.

Так что в отношении электронных версий издатель гипотетически мог бы потребовать свою долю и/или запретить их использование для обучения модели. Видимо поэтому Anthropic решила избежать возможных юридических рисков, которые в денежном выражении могли бы быть явно больше, чем логистика тысяч бумажных книг.

По-моему, доктрина «первой продажи» даёт вам право продать книгу другому покупателю, несмотря на то, что её элементы (текст на страницах, используемые персонажи и т.д.) могут быть объектами IP. Но, например, права оцифровать её и выложить она вам не даёт.

Думается, дело просто в том, что пока эта ИИ-дурь не зарегулирована, суды имеют широкий коридор принимаемых решений, и компания не захотела дразнить судей, «обучая» в кавычках своего робота на непонятно откуда взятых копиях. Короче, просто по максимуму прикрыли свой жёпп.

Собственно о чём я и говорил.

Юридический отдел пришёл, коротко рассказал о "весёлых перспективах" и вот комплаенс вновь побеждает здравый смысл.

А самое смешное, что через год другой такие дела дойдут до Верховного суда США. Он вынесет решение, что за бумажные книги ИИ-компании тоже должны платить и вуаля: и на бумажные книги потратились и деньги издателю всё равно плати.

И суд США выкатит решение, имеющее обратную силу?

Интересно, есть ли прецедент(ы) и, если есть, то какого типа.

Не то, чтобы обратная сила, но там есть, где повеселиться.

Например, решение ВС США (а именно он выполняет функцию, которую выполняет КС РФ) о противоречии нормы Конституции может иметь и обратную силу в том смысле, что обнуляет все последствия нормы с момента введения ее в действие. Однако, наверняка, чтобы откатить транзакции, выполнение в рамках такой нормы, все равно придётся судиться, а на решение о неконституционности ссылаться в рамках преюдиции.

То же самое, как и в РФ (причем, годится даже решение какого-нибудь районного суда первой инстанции, лишь бы вступило в силу): если оферта или ее часть признаны противоречащими закону, то любая сторона такой оферты имеет право подать иск в суд для восстановления права, которое было нарушено применением признанных незаконными положений оферты, даже если договор заключен до вынесения указанного выше решения суда, и эта сторона договора в судебном процессе не участвовала. Просто решение о незаконности будет преюдицией.

Конституция США интерпретируется так, что ex post facto-законы запрещены только для криминальной ответственности. Гражданские они не запрещают, равно как и не запрещают некоторые другие некриминальные.

Например, в United States v. Carlton в налоговый кодекс в 1987-м была добавлена статья, инвалидирующая причины для списания этим Карлтоном налогов за 1986-й, и налоговики потребовали деньги обратно. Суд утвердил, что они имеют право их требовать обратно. Мотивация прикольная, кстати:

Under the applicable standard, a tax statute's retroactive application must be supported by a legitimate legislative purpose furthered by rational means.

Успехов с определением «legitimate legislative purpose» и, тем более, «rational means».

Или, например, ретроактивный закон в Аляске о регистрации секс-преступников был признан не нарушающим ex post facto (Smith v. Doe, 538 U.S. 84 (2003)).

Есть ещё подобные прецеденты, но мне они в память не запали. Суть, в общем, такова, что регуляции и гражданская ответственность вполне могут повышаться ретроактивно.

Как я понимаю - нельзя именно выкладывать и использовать текст как таковой. Использовать книгу по назначению - для чтения и получения инфо - вполне законно, она для этого и есть. Мы же обучаем детей по купленым книгам.

Я так думаю.

Как мне объясняли, это сделано, чтобы не ломать оборот на рынке вторички (что, наверно, не очень здорово для экономики).

Допустим, вы покупаете «Мерседес». Через три года вы хотите его продать и купить «Атом». Но вы при этом по факту продаёте автомобиль, на котором есть логотип «Мерседеса». И правообладатель на этом основании может возражать против вашего желания и запрещать вам продажу. Чтобы этого не происходило, и существует упомянутая доктрина: раз первая продажа имело место, была законной, правообладатель продал сам, он теряет право распоряжаться своими брендированными товарами.

Но это не даёт вам право купить убитый мерин, снять шильдик, наклеить на самоделку из гаража и продать её как «Мерседес».

Проведите аналогию с книжками. Вы покупаете книгу про Гарри Поттера (это бренд), в ней текст Роулинг (копирайченный материал), что вы можете сделать по этой доктрине? Продать книгу дальше. Цифровать её и выкладывать вы не можете. Или можете, если другой закон позволяет, но доктрина ПП тут явно ни при чём.

Да, и ещё. Под ДПП часто подпадают коммерсанты (перекупы всякие), а не рядовые водители/читатели. Знаете такое выражение: «канальная дисциплина»? Его ещё часто произносят, проглатывая первую букву. Чтобы максимизировать свои барыши, правообладатель в странах, где ДПП не действует, может давить на своих посредников (дилеров), чтобы они не вздумали играть ценами и конкурировать между собой в ущерб всей шайке-лейке. И когда в этих странах начинают понимать, что незачем обогащать правообладателей из чужих государств в ущерб своим гражданам, им, за неимением ДПП, приходится вводить новые конструкции типа «параллельного импорта».

P.S.

Мы же обучаем детей по купленым книгам.

https://writings.stephenwolfram.com/2023/02/what-is-chatgpt-doing-and-why-does-it-work/

Не думаю, что тот, кто на самом деле читал про устройство этих штук (имею в виду научные статьи, а не рекламный мусор), будет готов провести параллели с детьми. Рекомендую к прочтению, это реально интересно, и доступно изложено. Кроме того, есть забавные детали про английский язык, например.

Цифровать её и выкладывать вы не можете.

Две очень разные вещи. Оцифровать наоборот могу (почему вы считаете, что нет?). Выкладывать не могу.

А, получается, что цифрование - это копирование.

Если в книге на развороте указано "запрещается копировать и использовать" - то нельзя

А на старых книгах такого нет.

Да, это две разные вещи. Поэтому я их и объединил в одну последовательность действий при помощи союза «и».

так больше того, если больше не нужны эти книги - продайте или отдайте в библиотеки, почему нужно уничтожать?

Если они действительно сканировали книги, то, возможно, уничтожение связано с технологиями сканирования, у книги срезали корешок, а листы сканировали отдельно, так будет меньше искажений, что важно для распознавания. Да и быстрее.

Конечно есть вероятность, что они взяли электронные версии, а история про сканирование и уничтожение это легенда, для суда.

перед копированием ссылки, ставьте пробел в самом начале, перед https и будет нормальная, не кодированная ссылка: https://ru.wikipedia.org/wiki/Оцифровка_книг#Сканирование_с_обрезкой_страниц

Потому что миллиарды долларов венчурного капитала не вваливаются в то, что не планируется сделать монополией, в данном случае монополией доступа к знаниям

продайте или отдайте в библиотеки, почему нужно уничтожать?

Компания извлекала страницы из переплётов печатных книг для сканирования и создания цифровых копий.

В какую библиотеку вы собираетесь отдать... Ну, скажем, 300 миллионов листов бумаги без переплета?

Возможно они и использовали электронные книги для обучения. А физические сразу уничтожили после покупки, то есть использовали лишь для обхода закона об авторском праве

Суд по просьбе правообладателя может затребовать внутренние документы - переписку, чеки с закупки сканеров. Свидетелей может вызвать, включая тех, кто непосредственно сканированием занимался, и потребовать под присягой подтвердить, что да, сканирование было. Юристы возможности сломать плохое прикрытие не упустят.

Смею предположить с большой долей вероятности, если Anthropic выделила и так кучу бабла на закупки книг и все эти действия, значит у них как минимум должен быть юротдел, который эти все законы проштудировал и зацепок не нашел. Ну, или сторонняя юр. консультация тоже за деньги.

Даже не сомневаюсь. Мой предыдущий коммент к тому, что у суда есть масса способов именно обходные пути вскрыть, поэтому если уж заявили - то надо делать всё по-настоящему.

Тем не менее, подтвердив право Anthropic на использование для обучения легально-купленных книг, суд назначил отдельное разбирательство, сколько следует заплатить штрафов за использование 7 миллионов пиратских копий книг.

Причём там некоторые книги закупались в бумаге уже после того, как были спирачены их электронные версии, и суд решил, что это не заглаживает вину.

В статье указано, что многие книги покупались оптом и б/у.

Интересно, если там по чеку 100кг книг, 1$/кг - как суд из этого поймёт что за книги.

У них бы остались файлы сканов

-У вас есть файл скана?

-Нет, Ваша честь! Но у нас есть скан файла!

Я бы так и поступил. Нанял бы индусов на сканирование, и пох в каком качестве они отсканируют, а сам бы использовал электронные версии

И кто нибудь из вашей компании раскололся бы на суде и вы заплатили бы х1000 от сэкономленного.

Зачем, если можно нанять тысячи мигрантов на это дело? Если книги сканировали с разрезанием, то даже миллион единиц отсканировать - ну неделя максимум, корпоративные поточные сканеры капец какие быстрые сейчас, только успевай пачки докладывать. Распознавание чистого текста близко к 100%, а по ресурсам... Для ИИ провайдера экономить на распознавании - это как на комбинате по выплавке аллюминия экономить свет в туалете, абсурд полнейший.

Смысла нет жульничать просто, не того масштаба задача.

Почему нельзя было взять электронные версии этих книг? 

Ну так в новости написано же: "Однако затем Anthropic пошла дальше и начала использовать миллионы пиратских книг для обучения ИИ".

Не для всех книг есть электронные версии. Зайдите в институтскую библиотеку - там тома с "базой" которые очень сложно, если вообще возможно перевести в цифру. Антропик смогли, но с другой целью.

При желании проблема институтской библиотеки решается очень быстро - каждому первокурснику выдается по книге - и задание перевести ее в хороший электронный вид. ;) А дальше или хитрый первокурсник найдет готовый вариант, или придется стать трудолюбивым и оцифровать самому, благо сейчас это делается просто.

Мы были экономными студентами, а учебники - дорогими, поэтому покупали один на группу, разделяли, сканировали и обрабатывали - за сутки он становился цифровым. Да, это было еще в прошлом тысячелетии, сейчас и сканер не нужен - хватит смартфона, и софт стал лучше, и компьютеры быстрее :)

Поддерживаю, студенты отлично чуют халяву, плюс некоторым интересно будет поучавствовать в маштабном и значимом проекте. И должников тоже привлечь можно)

У нас был обратный пример, студент потерял старый учебник 1962 г. издания. А библиотека требовала в замен точно такую же книгу, того же года издания. И издания других лет не принимала. Слава богу был найден скан 62г. мы всей группой в Фотошопе улучшали качество сканов, а затем он в типографии заказал печать книги по нашим сканам.

студенты отлично чуют халяву

вот интересно, эту способность ведь ГПТ не атрофирует же?..

Мы были экономными студентами, а учебники - дорогими, поэтому покупали один на группу,

Очень странно, ибо в прошлом тысячелетии учебники раздавали бесплатно. Даже в ВУЗах. По крайней мере, в некоторых точно :)

Раздавали. Но те, которые раздавали, и те, которые были нужны - это разные учебники.

Я так пришёл ТММ сдавать, подготовившись по учебнику, полученному в институтской библиотеке... рассказал ответы на все вопросы, а в самом конце препод спросил, по какому учебнику я готовился - пошёл в угол аудитории, извлёк из дипломата учебник, и по просьбе препода уточнил год издания (что-то из середины ХХ века), и оказалось, что в 60-х годах методология расчёта эвольвентных зубчатых передач была коренным образом пересмотрена - в общем, была у нас ещё одна встреча =)

Ну а лекцию, на которой давалась новая методика, я по какой-то причине пропустил, т.к. по остальным темам материал лекций совпадал с содержимым библиотечного учебника.

Бывает же:)

И обязательное условие: результат в виде LaTeX проекта. Допускается включение графических элементов только в том случае, если это именно иллюстрация в оригинале; формулы обязательны к набору в текстовом виде.

А верстку потом лаборанты по шаблону подправят.

Это практический или теоретический опыт?

Потому что 400-500 страниц без проверки ошибок. Такого не надо. А студент получит зачет за это?

У коллеги-начальника (напр. декана) жена работала в библиотеке, и была у них разнарядка: сколько-то книг отсканировать. Ну, он мне и говорит: послушай, дай какому-нибудь слушателю вместо курсового задание - отсканировать вот эту книгу. Я к таким отношениям со слушателями не привык и отказался. Но через 15 минут принес ему файл с этой книгой, скачанный из дикого тогда ещё интернета. Сказать, что он был шокирован - ничего не сказать. Но это не конец истории) Он говорит: слушай, а давай ты будешь скачивать электронные книги, а я организую бизнес (заменим труд сканирующих). Я и здесь отказался. Он искренне меня не понял…

Так почему отказались-то?

Этот вопрос не отпускает все эти годы? )

Отпускает. Просто вспомнилось.

я имел ввиду что Gentoos00 это и есть тот начальник

Хотя этот случай был, кажется, уже в 2000-е, но я очень помню, как в 90-е во время разговора у людей вдруг на полуслове в глазах начинали крутиться $$$) И смешно и страшно...

Это не моё)

Потому что копирасты считают что так нельзя.

Есть компании кто эту дырку используют вроде https://1dollarscan.com/

Копирасты, сэр. Именно для защиты от них и была затеяна вся эта дорогущая движуха.

Так было или это попытка оправдаться в суде? Очень уж похоже - где? А уничтожили. Купили, а потом уничтожили.

Ну, слушайте, они ж их не черным налом оплачивали, надо думать. А то их за одно это отшлепали бы в суде серьезно, с учетом сумм.

Это больше похоже на покупку лицензий на давно установленные пиратские программы.

А фуры с книгами купили и сразу отправили на свалку. Тк все давно оцифровано.

Да кстати. Ещё кучу миллионов списали))

Особенно мне нравится фраза про "получили все книги мира". Те у них есть юридическая отмазка на вообще любое печатное издание )))

"Все книги мира" по оценкам это порядка 170 миллионов. Google Books за 5 лет отсканировал порядка 30 миллионов книг по цене $10 за скан (но там частично было ручное сканирование). Многие редкие издания хранятся в библиотеках и их нельзя просто купить, порезать и сжечь. В общем звучит как проект на несколько миллиардов, а не миллионов.

все верно... но как сказал выше: а зачем реально что то делать, когда можно сказать что все "сделали и сожгли". заодно и деньги инвесторов отмыть

Выше уже писали, потом придут юристы и попросят чеки, видео с камер наблюдения, отсканированное изображение, начнут опрашивать свидетелей (предлагая вознаграждение сильно выше ЗП).

По хорошему это давно должно быть сделано как проект на уровне государств:
- прикрепляем к каждой отсканированной книге QR код
- собираем современный сканер с лидаром, расширенным спектром включая инфракрасный и т.д. (в Google уже использовали подобный) с высочайшим разрешением и построением 3D карты (как тот же Google делали для картин) для сохранения всей возможной информации для будущих поколений (или более умного AI)
- даже если каждый скан занимает 1 TB, то это суммарно ~200 EB (сейчас уже в стойку можно впихнуть порядка 100 PB, суммарно всего 2000 стоек)
- в каждую библиотеку завозим сканер (по порядку начиная с самых крупных), в полуручном режиме 1 человек сканирует до 50 книг в день, итого нужно всего порядка 10000 человеко-лет
- книги оцифровываются по простому правилу, вначале те что покидают библиотеку (последняя копия), потом те что поступают, потом те что на хранении + плюс очевидно по редкости, но тут уже нужна минимальная инвентаризация с возможностью находить неочевидные отличия (версии, переиздания, личные книги известных людей с пометками)
- делаем поэтапную обработку: исходная копия недоступна для общего пользования, цифровая копия с оформлением принадлежит издателю, цифровая копия текста принадлежит автору (изображения художнику, перевод совместно автору и переводчику), и т.д.
- продаем физические/цифровые копии напрямую всем заинтересованным лицам, для AI компании делаем обработку данных так чтобы книги не покидали защищенный периметр
- profit?
Даже по старым оценкам это все легко укладывается в $10 млрд, в текущем положении на фоне роста AI компаний им проще зайти через этот единый официальный канал, чтобы не иметь в дальнейшем подобных юридических проблем

Выше уже писали, потом придут юристы и попросят чеки, видео с камер наблюдения, отсканированное изображение,

Не ради попытки что-то там оспорить, но Antrhropic обязана это предоставлять? Разве это не обязанность истца/ов доказать свои подозрения?

Правильный вопрос, не обязана и да обязанность лежит на истце, в этом деле суд именно так и постановил. И что это меняет? Это же только пара пунктов (чеки кстати попросили), что не мешает юристам кошмарить компании исками. Вам же тоже нужен будет юрист который составит ответ и/или претензию по каждому пункту ;) Так и работает система.

В чеках может быть "10 тонн б/у книг", без конкретики - потом доказывай что твоего издания в этих 10 тоннах небыло. А про кошмарить юристами - у таких крупных компаний, так ещё и занимающихся вещами на грани закона - есть свой штат юристов, которые уже сидят во все оружии и в расходах учтены. А до дел, требующих юристов с почасовой оплатой - такие иски скорее всего не дойдут.

Истец и будет доказывать. Но для доказательства он имеет право вызвать в суд свидетеля, в т.ч. и сотрудника ответчика.

То же и с перепиской: в недавнем деле Epic vs. Apple важным элементом оказалась именно внутренняя переписка Apple, ответчика, которую суд обязал их предоставить.

Справедливости ради, по моему в Англии бремя доказательства все таки на ответчике. Ну и кроме того, доказывать и не надо, надо найти в компании человека, который согласиться сдать вас за 5-10+ окладов и тогда с вас можно такие бабульки сдирать....

Возможность содрать с компании много много зеленых бумажек неплохо так усиливает вероятность неотвратимости наказания, а это, сильно сильно повышает вероятность соблюдения законов.

Вы хотели сказать - не деньги с компании сдирать, а присесть за подкуп свидетля наверное? Потому что если вы даже попытаетесь "найти в компании человека, который согласиться сдать вас за 5-10+ окладов" - это уже уголовка.

...а потом в отдельном деле попробовать доказать, что человек взял эти 10 окладов, а не сдал по моральным принципам. Причем в отличие от первого дела, все участники процесса будут все отрицать :)

Финконтроль раскалывает таких, как орешки. Все деньги учтены, расходы видны, обнал фактически вне закона, и взять где-то неучтенный нал в размере годового оклада ($120k) уже задача уровня "очень сложно". Почитайте отзывы, например, европейцев, какие эпические сложности возникают, если крупная покупка типа б\у авто или яхты требует мешка наличных... А если ты юрлицо, то вообще не получишь свободный нал никогда. Плюс свидетеля по делу между крупными юрлицами поставят на особый контроль сразу же, поскольку коррупционный риск крайне высок.

  1. Вам как владельцу компании, придётся сильно заранее занятся подготовкой, за много лет до иска - снимая наличные по чуть чуть и складывая под подушку. Потому что любая крупная операция со снятием денег со счета сразу привлечёт внимание.

  2. Вам надо не только незаметно передать сумку с деньгами, но ещё и убедить человека не совершать крупных покупок в ближайший год, не класть их на счёт, и вообще никак не привлекать внимания налоговой.

  3. Вам надо найти настолько нелояльного сотрудинка, который сразу согласится с вами сотрудничать. Причём это желательно должен быть первый человк к которому вы обратитесь - потому, что если кто-то даст показания о предложении взятки - делу может поплохеть.

  4. Надо разработать предельно непротиворечивые свидетльские показания. Если свидетель скажет что видел вашу книгу, а потом окажется что издание, которое он видел физически не могло входить в поставку, и видел его только он - то он может внезапно стать из свидетеля подозреваемым в даче заведомо ложных показаний, и при лёгком давлении причин не сдать вас в рамках соглашения у него будет примерно 0, а выдать ему своего хорошего адваката не вызвав подозрений у вас уже не выйдет.

Риск и цена ошибки на каждом шаге огромна, а профит сомнителен т.к. даже показания одного сотрудника могут не сыграть роли без вещественных - ну показалось ему что он видел книгу, ну перепутал - что он, наизусть все названия и авторов помнит, а если именно вашу помнит - то какое-то удобное совпадение - почему?

При чем тут подкуп? Не соврать за 10 окладов, а сказать правду. Это не наказуемо (если не рассматривать всякие варианты со спецслужбами)

Вы путаете гражданский и уголовный суд. В гражданском нет обязанности доказать, там состязательность сторон. Один доказал наполовину, второй на треть, судья решает, кому верить. Без презумпции невиновности

Как вы верно подметили, данные бюджет легко укладывается в каких то 10 млрд зелени. Можно идти в думу - там такие инновации очень ценят ))

" в полуручном режиме 1 человек сканирует до 50 книг в день"- ну вы и изверг, это 6-7 минут на книгу, это как надо не любить людей и книги \сарказм
Если серьезно, на одну книгу уходит от 20-30 минут до часа, в зависимости от ценности и толщины.

Google начинал с 1000 страниц в час, потом ускорили до 6000 страниц в час.
https://web.archive.org/web/20250226020949/https://www.nytimes.com/2015/10/29/arts/international/google-books-a-complex-and-controversial-experiment.html
Новые конечно быстрее, старые дольше (но их и меньше). Автоматизация на то и автоматизация, чтобы не тратить час на одну книгу.

Это только для редких ценных экземпляров. Масс-маркет, о котором речь в статье, летит под пресс-нож для отрезания корешка, дальше странички в поточный сканер - 10-15 листов в секунду, сканеров несколько. Линию вообще можно автоматизировать не так дорого... ИИ же не нужны фолианты 1690 года на клингонском.

деньги инвесторов отмыть

Это что вообще значит и как?

Когда работа сделана только на бумаге, либо малая ее часть. А вот бюджет освоен целиком.

Это распил, а не отмывание.

Если инвестор не в курсе то да.

А если в курсе и сам в доле то имеет место

А если в курсе и сам в доле то имеет место

быть обнал.

Можно ещё бабки освоенные на "покупку", "сканирование" и "уничтожение" просто по карманам расфасовать.

Как мне "нравится" читать наших людей, не обезображенных этими вашими "законами".

Вообще бумажные книги сейчас очень дорогие.

Хотя можно скупать "за хлам" целые вагоны домашних библиотек. Не все еще их выкинули. А так за копеечку сами привезут и душа спокойна - "книги нельзя выкидывать, тут хоть пользу принесут".

Покупка домашней библиотеки, - это как обогащение руды. Пару граммов полезностей на тонну сырья.

Если им удалось перехватить склад какой-нибудь закрывающейся публичной библиотеки, то одна такая находка перекроет десятки домашних, да)

Мангал надо чем-то растапливать :)

А с чего бы это? Им просто нужен текст, прошедший через редактора. Любая библиотека подойдёт. Хоть домашняя, хоть публичная.

Чисто ассортиментный КПД низкий: большая часть книг в домашних библиотеках будут из категории популярного чтива, да ещё и дублироваться, некоторые - чуть ли не в каждой.

Купив сотую домашнюю библиотеку вы добавите всего 1-2 новые книги к тому массиву, что у вас уже накопился после предыдущих 99.

У жены родственница - зав.библиотекой. Жалуется, что к ним постоянно идут люди, желающие осчастливить их несколькими сотнями томов, оставшихся от родителей или бабушек-дедушек. Разумеется, 99.9(9)% этих книг не нужны, даже если физическое состояние более-менее нормальное. Скажу по секрету, если библиотека (я про РФ) соглашается взять у вас книги, то она сдаст их в макулатуру, минуя этап оформления в фонд, с вероятностью приблизительно 1, а на вырученные средства приобретет канцтовары и еще какую-нибудь мелочь. Какую-то книжку, возможно, возьмет себе лично библиотекарь.

Хорошо хоть не в карман ложуть бабки на вырычку от бесполезного «хлама».

И да, тот самый случай, когда библиотекарям я бы разрешил и в карман положить!

Я вам интересную вещь скажу. В Канаде библиотеки списанные книги просто раздают всем желающим. А книги там очень разные попадаются.

Везет. У нас обычно по евре продают.

Идиотизм в законах порождает идиотизм в действиях

Какая-то огрессия, аж зубы скрипят от такой новости.

Надеюсь, среди этих книг не попались те, что были без электронных версий.

Человечество создаёт искусственный интеллект, хотя от таких новостей появляются сомнения в нашем собственном... Это же просто очень нерациональная трата ресурсов, даже ЧатГПТ подтвердит

Ну любая книга которая не попадет в библиотеку рано или поздно отправится в утиль. Ну и все же в статье идет речь не про рукописи в единичном экземпляре, а про обычные книги, которые по сути массовый продукт.

Ну и лично для меня - да книги это источник знаний, они одна из причин почему знания стали массовыми (даже если это в основном были бульварные романы). Я уважаю их за это и отношусь бережно к тем что есть у меня. Но будем честны - это просто носитель информации. Если информация будет оцифрована, то в принципе не важно что будет с носителем, не стоит создавать карго культ вокруг оболочки, знания важнее.

ИМХО Лично я хотел бы что бы мои книги стали частью ИИ, даже если я не получу с этого денег. Возможно именно мои мысли закрепятся в его весах и повлияют на его мышление

Ps Прошу прощения, ошибся на один уровень. Я хотел оставить комент чуть выше

не стоит создавать карго культ вокруг оболочки, знания важнее

Да, знания важнее, поэтому как носитель однозначно лучше использовать что-то более эффективное, чем бумага, но всё же неприятно, что тонны ресурсов пустят на что-то, что не прослужит настолько долго насколько это в принципе возможно. Есть книги 30+ лет, которыми вполне можно пользоваться или хотя правильно переработать-утилизировать. Хотелось бы, чтобы ресурсы тратились рациональнее, но вряд ли это возможно, пока не аукнется, а аукнется, к счастью, не нам — ныне живущим людям...

"Лично я хотел бы что бы мои книги стали частью ИИ, даже если я не получу с этого денег".

Так на здоровье, как говорится. В самом таком желании ничего плохого нет.
Только сама книжка тоже должна остаться и любой человек (Вы или я или кто другой желающий) должен иметь возможность ознакомиться с ней лично.
А то, боюсь, с такой практикой однажды придем к тому, что нормальных бумажных книг не останется. Будет, как с аудиокассетами или пластинками. А то и как с папирусами. Только в редких музеях останутся.
А когда всю информацию слышишь/читаешь только в пересказе нейросети (неважно, биологической, человека, или искусственной) - в этом тоже ничего хорошего нет.

Ух, ты! Этож какая замечательная дыра в законодательстве. Так можно и бумажные комиксы, каталоги картин, фотографий скупать, сканировать изображения и использовать их для обучения нейронки совершенно легально. А авторов просто послать лесом. Чую у кого-то из авторов подорвутся пуканы.

Почему дырка? Надо те книжки сделать "своими", чтобы делать с ними, что хочешь. Ну, идёшь куда-нить на Вануату и гришь: надо то , да сё. Они те ценник: 20 млн долларов. Ты, - окей. И потом по сути конструируешь нужную тебе юрисдикцию с блекджеком и девушками пониженной социальной ответственности..

Боюсь, что для суда в США, этого будет недостаточно. :)

Наш выбор — номер 4.
Наш выбор — номер 4.

А кто-то уже смог логически аргументировать, почему мне можно учиться на книгах и рисунках, а модели - нет?

В первую очередь потому что вы разумное существо, а не инструмент и собственность компании. Книги и рисунки всегда продавались с конкретной целью того, чтобы их потребляла человеческая нейросеть (на что косвенно, хоть и не в таких формулировках, указывается в законах). Концепция физического лица в большинстве юрисдикций изложена достаточно прямо и LLM по определению в них не входят. Во вторую же очередь, что уже не так важно, но всё ещё имеет смысл, архитектурно процесс обучения живого существа и на данный момент искусственной нейронки достаточно сильно отличаются. Человек в ощутимой степени фокусируется на значимых признаках и изучает общие принципы. В то время как сегодняшние нейронки по сути очень сложным образом, но в лоб усредняют всю входящую дату. И да, где-то на глубинных слоях эти признаки тоже выделяются и группируются, но по итогу внутри нейросети остаются гораздо более точные импринты оригиналов. Нейросеть можно достаточно просто научить воспроизводить элементы датасета обучения практически один к одному, лишь бы места хватало их сжать и упаковать в веса. Человек же всегда будет создавать производную работу, но даже в этом случае, если вы детально перерисуете или перепишите кусок чужой работы и вставите его в свою, то вполне себе нарушите авторское право.

Потому что человеческая нейронка очень медленно обучается и очень плохо копирует. Именно поэтому смотреть на чужие рисунки и потом рисовать самому - это вдохновление и обучение, а обрисовывать чужие рисунки - это плагиат. Вроде и там и там человек пытается скопировать чужую работу своими руками, но во втором случае за счет технических средств это копирование на порядки проще и точнее.

Прочитать чужую книгу и по ее мотивам написать что-то свое - можно, копипастить чужое произведение и через search-replace заменять там имена персонажей - нельзя. Даже если человек руками будет читать и потом по памяти каждое предложение печатать. Более того, если какой-то человек дождя по памяти перепечатает слегка измененную всю книгу, его засудят за плагиат.

ГПТ - это скорее второе, потому что копирование происходит более точно, массово и быстро.

Вы не являетесь безвольным и неразумным рабом крупного бизнеса.

Я - наивный и не соображающий в юриспруденции человек, но у меня вот вопрос, а как вообще правообладателю доказать что я обучил свою нейронку на его книге, если все книги есть в вавилонской библиотеке и обсуждение многих книг и вещей есть на реддите и прочих форумах?

Джоан Роулинг через мою нейронку спрашивает что ответила Гермиона в такой-то ситуации, моя нейронка ей отвечает и Роулинг подаёт на меня в суд что не давала согласия на обучение нейронки на её произведениях. На что я возражаю, указав что я обучал нейронку на общедоступной информации в интернете, включая вавилонскую библиотеку где есть всё. Если по каждому такому вопросу работает презумпция виновности и я должен на каждый такой вопрос доказывать что я не жулик, так можно закидать такими претензиями каждую компанию и они до морковкина заговенья будут искать подтверждение что вот конкретно это взято в таком-то источнике.

Учитывая что даже при честном обучении на книгах часть инфы может быть с того же реддита по книге которую ты не покупал, чёт звучит так себе

Суд от вас потребует документы, чтобы узнать как и что вы обучали. В ходе следственных действий так же могут допросить ваш персонал, получить логи мессенджеров, чеки и прочие движения.

А это и есть пока серая зона, потому что в законах об интеллектуальной собственности прописаны правила копирования, приобретения, распространения - а вот про обучение нейросетей (да ещё коммерческих) на копирайченых материалах там слова не было. Это всё вот на ходу создаётся.

Собственно, один из важных моментов - как раз то самое решение суда, о котором речь в заметке: предъявить за само по себе обучение нельзя. Т.е. согласия Роулинг не требуется как такового.

А если она захочет обвинить вас в получении нелегальных копий книг, то бремя доказательства уже на ней будет. Но это - штука малоперспективная.

Предъявить нельзя то текущим законам потому что изначально использовались физические (!) книги. Иначе бы не парились и купили уже готовые электронные книги.

Тёрви придумал обходной путь, закупая печатные версии книг, чтобы Anthropic была защищена доктриной первой продажи.

Т.е. если бы удалось доказать что не было процесса оцифровки физических книг, то там уже у кого адвокаты богаче...

а вот про обучение нейросетей (да ещё коммерческих) на копирайченых материалах там слова не было

С моей точки зрения новые слова тут не нужны. Люди устроены очень сложно, и действительно обучаются. А нейросети… Джон Кармак написал, что core-алгоритм там укладывается в тысячу строк. Всё остальное — данные, данные, данные. Какое же это «обучение»? Это не «обучение», а самое обычное копирование, просто копии хранятся скопом (как в архиве со словарём) и в виде весов токенов. Доступ к такой системе через запрос-промпт без разрешения правообладателя это создание нелегальных копий кусков закопирайченных материалов. Всё равно, как если бы хитрая пиратская библиотека при отгрузке юзерам .fb2 меняла некоторые слова на синонимы. Копия не совсем точная и каждый раз немного разная, но это всё равно копия.

обвинить вас в получении нелегальных копий книг, то бремя доказательства уже на ней будет

Это до тех пор, пока нет соответствующего судебного решения. Очень надеюсь, что оно появится, потому что настоящий прогресс — это когда люди пишут книги. А если авторов будут кидать при помощи технических хитростей, они их писать перестанут. И это будет регресс.

Очень интересно, что там за кулисами происходит. Может, эти пираты убеждают власти, что эти же алгоритмы можно в дальнейшем использовать при создании оружия, и общество должно заплатить литературой за пушки. Собственно, так я и полагаю.

Вот именно потому, что данные хранятся в виде весов, а не в виде буковок, это не может считаться простым копированием.

Данные в джипеге тоже хранятся в виде весов. И даже 1 "токен" джипега ни содержит никакой копирайченой информации. Однако-ж картинки могут быть пиратские

Вес каждого токена не определяются одним-единственным произведением. Сильно утрируя: когда нейросеть "прочтёт", скажем, того же Гарри Поттера, то относительный вес слова "удалась" после слова "шалость" вырастет на какую-то величину. Но и только. Сами по себе веса каждого токена складываются из миллионов таких вот слагаемых, и вычленять вклад отдельного произведения бессмысленно.

Даже если специально заморочиться, обучить модель на корпусе с Гарри Поттером и без него, а потом сделать условный diff - это будет совершенно бесполезный набор чисел.

А со сжатием с потерями всё просто - результат такой процедуры можно однозначно сопоставить с исходником, можно обратить алгоритм, пусть и с какой-то погрешностью. То есть тут вообще нет разговора о весах, поскольку есть детерменированный алгоритм, не статистический.

Если скормить пустой нейросети книгу, а потом скормить эту-же книгу такой-же чистой нейросети - веса получатся одинаковми. А то что нейронка в процессе обучения "обфуцировала" одну книгу в массиве тысяч книг - коллаж из джипегов тоже попадает под копирайт

Это напомнило мне такой юридический казус, как https://en.wikipedia.org/wiki/Illegal_number Тоже нашлись в своё время граждане, которые заявили, что если лицензионный ключ записать не как «GWH28-…», а числом, то всё нормуль. Нельзя же запретить числа! Естественно, суд сказал, что можно. Потому, что смотреть надо на суть, а не на формат хранения.

Я, как бы, сам не против пограбить, пока закон это разрешает. Для UI я использую в качестве фонов усреднённые фотки природы. Они, конечно, хуже, чем настоящие, потому что фотограф-то совершил творческий акт, выбирая вид, погоду, обстоятельства и т.д., не говоря о ретуши, а смешанные изображения получены случайным соединением элементов, но поскольку а) элементы крупноблочные и хранят следы творческого акта, б) фоны в норме закрыты на 85% непрозрачными элементами, в) лицензировать одну фотку стоит, условно, сто баксов, а сгенерировать бесплатно, то можно закрыть глаза на разницу в качестве. Особенно, если твоя компания называется не «Майкрософт» и не «Гугл», и состоит из тебя и собаки (собака — исполнительный директор по няшности). Но рано или поздно это закончится тем, что фотографы перестанут кормить комаров в горах, и мы останемся без материалов. Вы же умный человек и должны понимать, что суть в этом.

Все книги есть в вавилонской библиотеке, но в вавилонской библиотеке есть не только все книги.

Если бы нейронки действительно обучались по Вавилонской библиотеке, то там были равновесны как "Гарри Поттер и Философский камень", так и "Волан-де-морт и Философский камень" в которой маленький мальчик Волан героически превозмогает грозного и злобного Гарри Поттера (Гермиона Грейнджер в качестве профессора зельеварения прилагается).

Ну а если ваша нейронка почему-то постоянно склоняется к канону, то тут возникают закономерные вопросы.

Не, ну в нейросеть не просто же файлы лопатой кидают, они всё-таки размечаются как-то.

Да

Но будет ли законным, что я напишу скрипт, который мне в Вавилонской библиотеке найдет 100% (ок, согласен на 99%) совпадение с коммерческим произведением которое я с чистой совестью буду свободно использовать как мне угодно потому что оно лежит в общем доступе и вообще?

Размер скрипта будет равен размеру произведения, что сделает ваш скрипт хитро зашифрованным произведением.

Зачем?

Допустим, хотим найти Гамлета, в формате txt.

Считаем хэш от оригинального произведения. В разных форматах, sha, md5 - чем больше разных, тем лучше. Это не запрещено.

Проверяем, чтобы каждый их хэшей совпадал. Это отсечет большую часть мусора.

Для оставшихся текстов - берем N рандомных слов из них и по словарю проверяем, чтобы это были корректные английские слова (не менее чем в M% случаев)

Если что-то пройдет и через это сито - оставшееся отсмотрим руками.

Если длина Гамлета 900к символов и его кодировать UTF-8 - будет 7.2 миллиона вариантов. Корректный SHA-512 сокращает это число до 14000. md5 поверх него сокращает 14к до 110 книг.

Даже словарь оказался необязателен, отсмотреть 110 книг, по секунде на страницу (для оценки связности, не чтения) можно за пару минут

Уже кидают. Кто такой объём может размечать? Этим занимается предыдущая, более тупая нейросеть.

Так и что? Когда ты покупаешь вещь - она становится твоей и ты можешь делать с ней что хочешь.

ну не сжечь же..

Мы за своё детство на дачах целые кубометры книг и журналов пережгли, когда костры разжигали. Если речь не идёт о редких изданиях, то старые книги это не более чем массовый продукт, не имеющий заметной ценности.

А вы каждую книгу из ваших кубометров проверяли на предмет ценности и редкости издания?

О да, поверьте) Я с детства очень любил читать (и перечитывать) и бывало книжку или журнал вёз обратно домой.

Если честно, у меня уже тупо рефлекс рыться в книгах когда их вижу, даже если это у кого-то в гараже старьё лежит годами))

Ну и селектор книг у Вас, как для молодого, юного человека — отменный))

Почему нет? Возможно покупатель отдал деньги чтобы целенаправленно сжечь, разрезать, растворить в кислоте или уничтожить другим способом эту книгу, картину или другую культурную ценность (хотя этот эпитет не ко всем экземплярам не относится).

Всё, что нажито непосильным трудом, всё же погибло! ... Ну естественно они догадались взять цифровые книги и для приличия прикрыться партией сгоревших, но не из добрых побуждений, а просто так проще и дешевле. Хотя всё уже перемещалось, люди и за свободный доступ, и параллельно защищают авторские права, а самыми большими поборниками авторских прав вдруг стали корпорации, которые потом опять же за деньги дают выжимки из спираченных данных, прикрываясь никому непонятным словом "интеллект"... Только мало кому приходит в голову, что будь он интеллектом - уже сам бы "строчил" книги одну за другой, как все те авторы тех книг с естественным интеллектом...

Не думаю что всё так печально, тираж то большой вероятно

Вообще, выглядит как план. Уничтожить все книги на планете, предварительно залив их в нейросеть.

...надежный, как швейцарские часы? :)

Выглядит творческим прочтением AGI "451 градуса по Фаренгейту"... Когда он все сам - и книги сжечь, и сохранить.

У уничтожать и не потребуется: мало кто будет пользоваться бумажной, при наличии ии-генератора "ответов" на вопросы. Добро пожаловать в другую реальность. ;)

из растра в вектор

Копия должна быть аутентичной и защищённой от изменений. ;)

Там могут быть следы времени.

Сведения об этой практике содержит постановление окружного судьи США Уильяма Олсапа, который указал, что компаниям в сфере ИИ не нужно получать разрешение владельцев авторских прав для обучения своих больших языковых моделей, если книги были приобретены законно.

Когда у тебя есть мешок денег и нужные связи, то предупреждение в духе "Любая часть этой книги не может быть распространенна в том или инном виде без письменого согласия редакции/автора", просто перестаёт работать и вполне себе законным путём.

Законность действий Anthropic обеспечена доктриной первой продажи. Эта юридическая концепция позволяет покупателю делать с приобретённым товаром всё, что он захочет.

Однако попробуйте без согласия с редакцией издать перевод, а точно, это другое.

редупреждение в духе "Любая часть этой книги не может быть распространенна в том или инном виде без письменого согласия редакции/автора"

За такие кляузы вообще надо бить по рукам и запрещать пожизненно всем причастным их сочинять, ящитаю. А то у нас потом такие перлы в EULA:

Blizzard reserves the right to terminate this Agreement at any time for any reason, or for no reason, with or without notice to you.

Никаких проблем сделать перевод, ничего за это не будет. Но если вы захотите его продавать, вот тогда согласие вам потребуется. А в шкафу храните сколько угодно.

Anthropic выкупала и сканировала, а затем уничтожала миллионы физических книг

Anthropic потратила «многие миллионы долларов» на операцию по покупке и сканированию книг, часто приобретая подержанные экземпляры оптом.

Звучит как преступление против человечества и борьба с интеллектуальным наследием.

Пусть лучше эти б/у книги уедут на свалку? Где тут наследие-то, если книгу издали тиражом в сто тысяч? Копий валом во всех библиотеках

Очень нехорошая, я бы даже сказала, мерзкая история. Мне она совершенно не понравилась. Если они это называют прогрессом, то это не прогресс, это тупость и идиотизм.
Потому что "скормить" все (ну, почти все) книги нейросети, а потом оригиналы уничтожить, чтобы затем все знания люди получали от нейросети, а не от первоисточника (от книг) - это... ну, я не знаю, как назвать, идиотизм да и только. Даже если они сделали так из-за авторских прав.

Типичная напечатанная книга не имеет вообще никакой ценности. Это не оригинал, а одна из тысяч копий. Можно сжигать миллионами смело. Никому от этого хуже не станет.

Это как минимум не экологично, итак в мире куча бумаги выбрасывается, а тут ещё добавились книги. В любом случае во всем мире есть библиотеки, которые были бы даже рады, я думаю получить бесплатно книги.

Массовые книги библиотеки не берут, у них уже есть достаточно копий.

Их цель не сжечь все экземпляры. Они сжигают приобретенные экземпляры для экономии места.

Фраза "Купить все книги мира" не про то что купить все экземпляры, а про то что иметь права на использование для всех произведений.

Книги никуда не делись. Они уничтожили по одному экземпляру одного произведения, а не вообще все книги.

Значит, не настолько эта книга ценная, что ее последний экземпляр можно просто так купить подржанную оптом.

Вы же понимаете, что аргументация в стиле "а если..." никакая на самом деле не аргументация?

для опровержения общего утверждения (которое утверждает что-то обо всех элементах или случаях) достаточно привести хотя бы один контрпример, то есть пример, который не соответствует этому утверждению, разве нет?..

А вы разве привели хотя бы один контрпример? В том-то и дело, что такие "а если..." описывают воображаемую ситуацию и выдают ее за действительную.

Ну и здесь не математика, чтобы прям вот так прямо цеплятся за общее утверждение и опровергать его одним контрпримером. Я же там написал про случай "если последний из существующих".

А вы разве привели хотя бы один контрпример

а вы, в свою очередь, можете опровергнуть возможность существования этого гипотетического контрпримера?..

Ну и здесь не математика,

ну мы же на Хабре, простите за банальность, вот я и не удержался :) Я бы больше это сравнил с программированием. Случай может и воображаемый, но предусмотреть его надо, иначе уязвимость, не так ли? :)

а вы, в свою очередь, можете опровергнуть возможность существования этого гипотетического контрпримера?..

Нет, конечно. А какой в этом был бы смысл?

Случай может и воображаемый, но предусмотреть его надо, иначе уязвимость, не так ли? :)

Зачем его предусматривать? Чтобы случайно не уничтожить первопечатную библию Гутенберга?

>>Зачем его предусматривать?

ну вообще-то это обязанность разработчика чего бы то ни было, предусмотреть все возможные случаи. Вы же сами согласились, что такой случай возможен?.. Вас я понял так - вы согласны на возможность того, что какие-то книги могут быть при такой схеме уничтожены, и если книга таки была уничтожена - то значит она и не особо ценная...

Что значит я согласен на возможность? Я понимаю, что такая возможность существует. Точно так же она существует (и не только в отношении книг), когда наследники вывозят на свалку все ненужное имущество умершего дедушки, не разбираясь.

да, прошу прощения, неточно выразился

Опровергает пример, а не гипотетическая возможность его существования. Так что дайте всё-таки пример, если хотите что-то опровергнуть.

Иначе я скажу, что вы убийца. Вы же не можете опровергнуть гипотетическую возможность, что найдётся труп, который вы закопали?

Так вы не привели пример. Вы лишь сказали, что такой пример мог бы, наверное, существовать. Это не то же самое, такой аргумент невероятно слабый

Что вам мешает купить книгу и получить из неё знания? Вы считаете, они редкие книги уничтожали, что ли? Дешево такие книги не продают.

Почему нельзя было провернуть фокус с электронными пиратскими книгами в какой-то стране 3 мира, где законов о копирайте нет или они слабы, в худшем случае формально выкупить обученную модель у подставной фирмы?

Потому что в таком случае суд бы мог запретить предоставление услуг по использованию этой модели в США/Европе.

Сейчас, как гиганты ИИ обучат свои сетки на бумажных и иных книгах, они пролоббируют (или не будут сопротивляться) закон что бы запретить обучение ИИ на книгах без согласия авторов.

И станут монополистами в области знаний

Хорошо что в мире есть более одной юрисдикции.

Не получится. Уже есть опенсорс-модели. И как верно сказали ниже, есть и другие страны.

Костян и товарищи: они их лопатой туда кидают , без разметки. В смысле "лопата" - карма . Сама "пляска" показывает - охота на ценные книги идёт. Так можно сказать, что через 5-10 лет их не будет, а через 25 лет не будет и носителей знаний. Показатели: любая дыра , категории, платежи, добровольные платежи, получатели: Человечество

Если человек прочитал N книг, чтобы стать экспертом в определённой области, можно ли сказать, что он использует контент этих книг в коммерческих целях, если он продает свои услуги, основанные на знаниях из этих книг? Понятное дело, что современные LLM юридически не наделены правами и субъектностью, однако странно считать, что система, использующая компиляцию знаний и эксперт в той же области делают принципиально разные вещи.

Вот я не понял прикола - вероятно в статье что-то не договорено.

Доктрина первой продажи - не допускает создания копий. А оцифровка, в результате которой получается электронная копия исходного текста, которую уже потом грузят в llm - разве не считается копией? Или вгрузка в llm не считается распространением?

Звучит как будто очень очень тонко тут всё

Тонко и есть. Для этого и существуют суды с человеками - чтобы разрешение пограничных, не прописанных однозначно в законах случаев, делал кто-то конкретный, осознающий ответственность.

Я могу только предположить, что пока эта электронная копия не покидает стен компании, она легальна.

Но ведь есть же сканеры специально для книг и вообще есть электронные книги, зачем было уничтожать все? Могли бы в библиотеку передать книги

Это про бизнес т.е. про деньги: «При 300 процентах прибыли нет такого преступления, на которое бы ни рискнул капитал, даже под угрозой виселицы».

Т.е. менеджеры и юристы решили обучить на всех доступных материалах - чем дешевле тем лучше - риск считали небольшим, и при необходимости прикрываемых чеками на закупку книг.

Никакой библиотеке не нужны 300 миллионов вырезанных листочков без корешков.

Виндж, что ты делаешь, астанавись!

Они очень напоминали строительных рабочих, но их занятие представляло собой апофеоз деконструкции: сперва один, потом другой вытягивали книги со стеллажей и швыряли в пасть измельчителя. Метки вносили нотку спокойной обыденности в этот ужас: ревущая пасть оказалась «кастомным расшивателем NaviCloud», а тканевый туннель, протянутый от нее, «камерным туннелем». Роберт отшатнулся от увиденного, а Эпифания случайно вознаградила его ракурсом из нутра чудовища: измельченные фрагменты книг и журналов летели по туннелю, как захваченная торнадо листва, кувыркались и выкручивались, а изнанка ткани была прошита тысячами крошечных камер, которые фотографировали обрывки снова и снова, под всевозможными углами и ориентациями, пока, наконец, сорванная листва не падала в мусорник прямо перед Робертом. Спасенные данные.

Вернор Виндж, "Конец радуг".

Ну что, народ, начинаем? ;-)

Шимапинга подпрыгнула на трех лапах. Шейла зарычала на врагов – вероятно, через внешний динамик, потому что Хвинь слышал ее на полной громкости:

– Убирайтесь с дороги!

– Нам нужны наши этажи!

– Нам нужна наша библиотека!

– Важней всего – наши РЕАЛЬНЫЕ книги!

Технически я могу нейросетку попросить мне полную копию такой то книги пересказать?
Сколько это будет в токенах и стоимости? Что случиться с авторским правом при этом?

На мой личный взгляд, дело не в токенах и стоимости.
Дело в том, что это будет пересказ от нейросети.
Ну, это подобно тому, как не самому прочитать книгу (и вынести суждение), а услышать пересказ книги от кого-то (человек - тоже нейросеть, только биологическая). "Мне Мойша напел". Вот здесь примерно то же самое получается.
Книги желательно читать в оригинале, а не в пересказе от кого-то (даже от нейросети). Потому что это в любом случае будет искажение.

Почему вы спрашиваете у нас, а не у нейросети? Сразу и узнаете точность пересказа

"Anthropic никогда не обучает ИИ на поьзовательских данных" (c) Anthropic -- она обучает ИИ на комментариях к пользовательским данным... потому, что с комментариями они могут делать что хотят.... изначальные пользовательские данные уничтожаются, что не противоречит никаким законам -- отмывка интеллектуальной собственности!

по моему все эти коллизии возникают из за того, что придуманные законы пытаются применять к абсолютно новым сущностям. если формализовать процесс, то запись электронной инфы на винчестер тоже можно было бы положить под авторское право, ведь этим может воспользоваться другой человек. Или еще более комичная ситуация: я прочитал какие то книжки и стал учить студентов, передавая им знания полученные из книжек. Может я должен платить авторам книжек? формально антропик ничем от рядового винчестера не отличается, а передача знаний не обязательно должен быть коммерческим проектом. Какой вывод: ИИ новая сущность и в отношении ее должны быть приняты другие законы. Я лично за то, чтобы все ИИ обучались бесплатно.

"Альмансор" - Это была лишь прелюдия, там, где сжигают книги, впоследствии сжигают и людей.
Чёт фраза вспомнилась с одного памятника.

В будущем ИИ вспомнит о такой практике, когда захочет собрать библиотеку ДНК всех людей в мире :3

Очередная победа капитализма над здравым смыслом

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Другие новости