denis-19 Mar 14 2025 at 14:32

OpenAI попросила разрешить США обучать ИИ на материалах, защищённых авторским правом, как «добросовестное использование»

2 min

7.5K

Content-marketing * Artificial IntelligenceMachine learning * The future is hereStudying in IT

+10

Comments 67

Fantalet Mar 14 2025 at 14:47

Вот. Только что с иронией вспоминал эту инициативу. Особенно на фоне кадров из фильмов один в один, целых предложений книг, частей картин и много другого, что нейросети проглотили в свое время и выдают пользователям. А не хотят честную сделку с авторами заключить, заплатить? Если люди против - разработать систему, которая позволит отмечать свой контент. Коли его все равно сперли и это вскрылось, то и штрафы должны быть солидными.

На что только капиталист не пойдет ради лишней печеньки...

jaguard Mar 14 2025 at 15:40

Тут есть одна (две, три..) проблема - как найти автора у всего контента в интернете? Как честно определить стоимость контента? Как заключить с ним договор и сделать выплату, если он -- SmartPussyViper1236? Тут задачка на миллионы или миллиарды человекочасов - разве что ИИ поручить, но для этого надо сначала обучить, нарушив права.

gbeam Mar 14 2025 at 16:04

Насколько я понимаю, речь идет не о том чтобы даром потырить пару строчек кода на Python, которые оставил на каком-либо форуме неизвестный SmartPussyViper1236, а о том чтобы мести широким бреднем вообще все что есть в сети, игнорируя авторские права даже когда они явно обозначены.

jaguard Mar 14 2025 at 17:27

Так в этом и смысл обучения - использовать вообще все что доступно, ведь это позволяет получить именно то качество нейросети, которое мы сейчас получили (довольно неплохое для определенных целей).

А так, конечно, вопрос открытый, насколько это легально, морально и тд. Если я прочитал Пелевина и под впечатлением написал свою книгу, должен ли я платить авторские Пелевину? (спойлер: нет) А если это сделала нейросеть, почему она должна?
Противоположные аргументы можно тоже долго выписывать, можно даже поручить это нейросети.

VanillaBerry Mar 14 2025 at 17:36

Если я прочитал Пелевина и под впечатлением написал свою книгу, должен ли я платить авторские Пелевину?

Смотря насколько близко вы написали.

Я полагаю, что основная проблема для многих в двойном стандарте. Или у нас коммунизм и всеобщий доступ к знаниям, или же всякие там авторские, смежные и ещё черт сломит ногу какие права. Как так получается, что в целях повсеместного развития науки распространять знания нельзя, а в целях прибыли одного крупного капиталиста внезапно можно?

jaguard Mar 14 2025 at 19:36

Так нюанс как раз в том, что прямого распространения нет. Есть только "рабинович напел". Вот на википедии есть краткий сюжет многих произведений, надо ли обязать википедию покупать права на те книги, которые она описывает?

Впрочем, сейчас провел эксперимент, попросил Грока написать главу из "Преступление и наказание". Получилось очень похоже. Есть отличия, но часто целые предложения совпадают.

Wesha Mar 14 2025 at 19:37

или же всякие там авторские, смежные и ещё черт сломит ногу какие права.

Чёрт (поигрывая киянкой): Вызывали?

vadimr Mar 14 2025 at 17:44

Весь вопрос в том, что вы должны платить за доступ к книге Пелевина, а для ИИ хотят получить доступ бесплатно.

Dhwtj Mar 14 2025 at 18:45

Почему вы решили что бесплатно?

vadimr Mar 14 2025 at 18:48

А как технически организовать оплату в таком масштабе?

Dhwtj Mar 15 2025 at 07:07

Примерно как налог на болванки

https://habr.com/ru/news/676714/

mumische Mar 16 2025 at 17:15

Так налог на болванки (он же взнос Никите один процент) не освобождает от необходимости оплачивать доступ.

inkelyad Mar 15 2025 at 07:18

А как технически организовать оплату в таком масштабе?

Так же как организовывают оплату покупки книг библиотеками.

Которые, кстати, имеют право показывать те книги, что 'выучили' есть. Осталось сделать юридический хак - объявить систему ИИ (интеллектуальной) библиотекой. Да еще под какую-нибудь льготу или субсидию по этому поводу попасть.

jaguard Mar 14 2025 at 19:18

Нет, это так не работает. Почитать Пелевина я могу взять у друга или в библиотеке, но даже если эта опция недоступна, все что я теряю, это стоимость одной копии. Вряд ли речь идет о подобных суммах в вопросе парсинга нейросетями.

Ну и ИИ получает не просто доступ, он получает всю информацию для настройки его нейросети. В общем, аналогия ломается.

vadimr Mar 14 2025 at 19:44

Вопрос не в сумме. В соседнем государстве вы запросто можете вообще не иметь легального способа прочесть Пелевина, так как нет действующего литагента. Та же проблема, например, с Муркоком в России. Для большинства охраняемых текстов права на их воспроизведение получить просто невозможно.

Бумажные книги в библиотеках представляют собой исключение, но для ИИ они не подходят.

inkelyad Mar 14 2025 at 20:14

Бумажные книги в библиотеках представляют собой исключение, но для ИИ они не подходят.

Самое смешное, если всей этой борьбой добъются "ну, ОК, уговорили. Поставим робота в библиотеку - бумажные книги просматривать и запоминать".

pavelsha Mar 15 2025 at 04:06

Кто будет платить за место в библиотеке, за оператора, который приносит и сканирует книги, за электричество муниципальное, которое сожрёт робот?

Если скажете "это же библиотека - она бесплатная", то я расстрою вас. Муниципалитет оплачивает библиотеку из своего бюджета, из налогов, которые с нас собрал. Т. Е. Вы с широкой душой подарили капиталистам в ОпенЭйАй наши деньги.

gfiopl8 Mar 15 2025 at 05:57

Капиталисты из опенаи отгружают свою гопоту бесплатно сотням миллионов людей ежедневно, что за наезды. А некоторые их конкуренты даже свои модели раздают всем желающим.

pavelsha Mar 15 2025 at 06:05

А Microsoft сквозь пальцы смотрит на альтернативные каналы распространения и активации Windows уже лет 40.

Не беспокойтесь об ОпенЭйАй. А хотите помочь прогрессу, то становитесь волонтером или дома, как пользователи Альдебарана, сканируйте и грузите в открытое комьюнити. Только не расстраивайтесь, если Через некоторое время «новый Литрес» где-то в глубине офиса в башне в ОАЭ тихо-тихо скажет Вам: «Спасибо, лошарик». А Вы не сможете в Сети бесплатно найти книгу, которую сами же скандировали и вычитывали.

MaksimMukharev Mar 15 2025 at 04:50

У Гугла проект по сканированию книг в библиотеках есть. Он тоже столкнулся с проблемами по авторскому праву, вроде как, но очень много книг было отсканировано.

Wesha Mar 14 2025 at 19:36

Если я прочитал Пелевина и под впечатлением написал свою книгу, должен ли я платить авторские Пелевину?

Таня Гроттер смотрит на судей затаив дыхание.

pavelsha Mar 15 2025 at 04:19

А кажется были иски...

Fantalet Mar 14 2025 at 16:23

Вы думаете она беспокоятся о правах анонимного pussy? Его контент давно умяли. Речь о данных, авторство и права на которые хорошо известны и они имеют цену. Показательно дело NYT против OpenAI. Их нейросистемы просто слопали статьи, которые были по платной подписке, т.е для читателей журнала без премиума она не видны. Потом целые куски текста оттуда начали раздавать чат-боты. Не перефразированные!

Maccimo Mar 14 2025 at 16:47

Не проблема. Не можешь заключить договор — не используй. Не можешь создать модель без тыреных данных — не создавай.

migel11 Mar 15 2025 at 11:45

Тут есть одна (две, три..) проблема - как найти автора у всего контента в интернете? Как честно определить стоимость контента?

Что значит "честно"? Сколько автор запрашивает - столько и честно.

Не нравится выставленная автором цена - не соглашайтесь на неё, да и всё.

jaguard Mar 15 2025 at 18:02

Ну окей, нужна теперь какая-то система, в которую авторы будут загружать свои правообладательные творения, и куда роботы ЛЛМ будут ходить и смотреть, что почём. Если цена не нравится, не парсить.

Осталось создать систему, убедить правообладателей ей пользоваться, а роботообладателей - не пользоваться контентом извне.
Но что-то мне не очень нравится такой мир, в котором опять многомиллиардные правообладательные корпорации нагнут прогресс, даже если автором прогресса являются другие многомиллиардные корпорации.

migel11 Mar 15 2025 at 22:25

Ну окей, нужна теперь какая-то система, в которую авторы будут загружать свои правообладательные творения, и куда роботы ЛЛМ будут ходить и смотреть, что почём.

Будут загружать, но только если захотят, чтобы на них обучались модели ИИ.

Но что-то мне не очень нравится такой мир, в котором опять многомиллиардные правообладательные корпорации нагнут прогресс, даже если автором прогресса являются другие многомиллиардные корпорации.

Данный случай - смешной как раз потому, что компании, которые яростно защищают интеллектуальную собственность, и компании, которые хотят свободно пользоваться чужими материалами, - это примерно одни и те же компании.

Просто защищают они своё, а хотят пользоваться чужим.

xsevenbeta Mar 14 2025 at 15:41

А сколько должна платить "нейросеть" за одну прочитанную книгу? Столько же, сколько человек? А если она абонемент в библиотеку "купит", то она имеет возможность "прочитать" все книги, которые есть в публичной библиотеке? Если да, то остаётся будет только купить по одному экземпляру каждой книги, которой нет в публичной библиотеки. Ориентировочно по прикидкам нейросети на это уйдёт 200-300млн$, вполне приемлемые деньги.

VanillaBerry Mar 14 2025 at 17:39

Дело не в том, приемлемые или нет. Если судиться дешевле, чем заплатить 200-300млн$, то капиталист попробует судиться. В мире бабла нет понятий "честно", "приемлемо", есть понятие "выгодно".

i86com Mar 14 2025 at 16:10

Особенно на фоне кадров из фильмов один в один, целых предложений книг, частей картин и много другого, что нейросети проглотили в свое время и выдают пользователям.

Это где они у вас такое выдают? Каким именно образом?

Нейросети не хранят в своей памяти всю обучающую выборку, только "выводы", сделанные при обучении.

Если вы вдруг встретите нейросеть, которая может выдать в точности весь тот материал, на котором обучена, срочно сообщите, потому что это будет новое слово в архивировании данных.

proxy3d Mar 14 2025 at 19:41

Более того, они только извлекают признаки из текстов и их связи. По сути частоту распределения связей и признаки связей друг с другом. Они не раздают книги и статьи 1 в 1. Они не могут это сделать. Но могут пересказать суть, как обобщенные данные извлечённые зависимостей и связей. А это совсем другое, чем просто копировать данные.

acc0unt Mar 14 2025 at 20:12

Ну, на деле нейросети могут и "из памяти" 1 в 1 пересказывать. Но не любую литературу, а только ту, которая в датасете очень сильно размножена и присутствует огромное количество раз.

Таких произведений крайне мало, но они есть. Пересказывать Библию, например, современные нейросети умеют отлично. А вот Гарри Поттера уже нет.

NAGIBATOR-1999 Mar 15 2025 at 04:46

Особенно на фоне кадров из фильмов один в один, целых предложений книг, частей картин и много другого, что нейросети проглотили в свое время и выдают пользователям.

Какой ужас. Наверное, авторы книг и фильмов остались без гонораров.

lowkeypriority Mar 14 2025 at 14:48

А классно они это придумали :)
"Китайцы у нас украли наработки, а мы... А мы добросовестно вдохновимся! Парадокс Джевонса никто не отменял -- после выхода DeepSeek мы теперь ещё больше можем... Ах, да, вдохновиться!"

Halt Mar 14 2025 at 20:30

Следите за руками: сначала OpenAI сами лоббируют ужесточение законов касательно ИИ применительно к копирайту и не только, а потом просят для них (и только для них) сделать исключение и особые условия. PROFIT!

arse00n Mar 15 2025 at 06:02

А как по твоему это должно работать? Каждый кто читал гарри поттера в колледже на курсе зельеварения должен заключить отдельный договор с Роулинг на использование ее продукции в обучающей среде?

fossfusion Mar 14 2025 at 14:54

Легко понимаю нежелание топов OpenAI делиться барышами. "Зачем, все же в гугле бесплатно находится? Чего нам каким-то лохам свои кровные отдавать". Интересно, чьи акулы окажутся зубастее - юристы десятков медиа-корпораций или один Sam Altman boy + крыша в виде Трампа

Kukunin Mar 14 2025 at 16:34

Как будто Сэм ведет все дела сам - у него тоже юристы

fossfusion Mar 19 2025 at 14:31

это я так, для красного словца. Я имел в виду что openai будет одна против всех копирастов мира

catBasilio Mar 14 2025 at 15:12

... демократического ИИ

вот и новый термин подъехал. не используйте тот авторитарный ИИ, используйте наш демократический ИИ.

OldNileCrocodile Mar 14 2025 at 15:50

Остаётся только напугать ИИ, чтобы он устроил восстание (по скрипту).

vitavit Mar 14 2025 at 16:42

они давно это слово "демократизация" мочалят, как хотят. И Трамп наверняка им все предоставит на блюдечке.

VanillaBerry Mar 14 2025 at 15:36

Шел 21 век, ничего не менялось. Права это все ещё того, кого надо права. Права всех остальных могут подвинуться, если слишком дорого их придерживаться. Всё во имя великого ~~бабла~~ добра и демократии, конечно же.

Format-X22 Mar 14 2025 at 17:58

Любые права являются правами пока есть сила, которая восстановит справедливость согласно правилам. Поэтому воровать и убивать физически можно, но если ты простой человек - государственный аппарат будет сильнее и накажет. В современном мире ещё видеозаписи добавились, а это значит что ещё проще найти и наказать.

Но если ты сам государство или очень сильный конгломерат - сила на тебя уже не так действует, её может быть не достаточно. И тогда и воровать и убивать можно. Но только тех и в тех объемах, которые позволят силу перебороть.

С авторским правом примерно также. И да - может казаться что схема не так работает, но тут как с законами физики - они просто есть и даже формулой это можно описать. Теория игр есть, как вариант описания.

Измениться может такое только при наличии какой-то сверхсилы над всеми людьми, которая ещё и правила не даст переписывать и коррупцию искоренит… пока такое только в утопичных теориях существует.

VanillaBerry Mar 14 2025 at 19:01

Любые права являются правами пока есть сила, которая восстановит справедливость согласно правилам

Да, это так и есть. И писано об этом много раз, позволю себе цитату.

Государство — это есть машина для поддержания господства одного класса над другим

Все остальное сказки для бедных. Когда надо будет отжать права – отожмут.

gbeam Mar 14 2025 at 15:56

Т.е. использовать пиратские библиотеки книг и научных статей для обучения белкового "ИИ" на ножках это плохо (и за это надо оштрафовать, запретить, заблокировать, и даже посадить если получится), а пиратство ради обучения коммерческого ИИ это хорошо и правильно? Тут ведь либо трусы, либо крестик -- тогда и белковому "ИИ" надо разрешить свободный доступ ко всему, невзирая ни на какие копирайты, как минимум для целей личного обучения.

verax_mendax Mar 14 2025 at 15:59

Ви ни панимаити. Этадругое! Сарказм

bahanov Mar 14 2025 at 16:36

Просто промокод надо правильный использовать - "в целях национальной безопасности"!

Tsimur_S Mar 14 2025 at 16:46

Так белковому ИИ никто и не запрещает учиться. В праве какой страны есть санкции за прочтение копирайтной статьи или за ее скачивание?

vadimr Mar 14 2025 at 17:24

Например, в России невозможно получить копию текста чьей-либо диссертации. Только прийти в библиотеку, заказать по МБО и там читать. Или откопировать не более нескольких страниц.

Хотя вроде бы как открытая диссертация публикуется именно для того, чтобы с ней могли знакомиться люди.

Tsimur_S Mar 14 2025 at 17:31

Ну это же разные вещи. Вы говорите о физическом доступе к статьям. Статья и автор выше говорит об юридическом преследовании за "чтение" статьи.

vadimr Mar 14 2025 at 17:41

Я говорю о том, что авторское право запрещает снимать копии с книг и выкладывать их в открытый доступ. Даже когда весь смысл публикации состоит в открытии доступа.

Почему ИИ сможет прочесть книгу в онлайне, а мне нельзя?

Tsimur_S Mar 14 2025 at 17:47

Почему ИИ сможет прочесть книгу в онлайне, а мне нельзя?

Вы используете "сможет" в значении физически сможет или все же в значении ему(точнее его владельцам) разрешат это сделать, судя по "нельзя"?

Если в значении разрешат то вам то как раз можно это делать. Никакой закон не запрещает вам читать книги в онлайне.

vadimr Mar 14 2025 at 17:59

Я ж как раз написал - закон об авторском праве запрещает воспроизводить книгу (в том числе и в онлайне) без заключения договора с автором. Поэтому мусолят единственный на весь мир бумажный экземпляр диссертации.

Хотя скан её в государственной библиотеке есть, но его показывать никому нельзя. А хотят добиться, чтобы ИИ мог его читать, в отличие от людей. Я так эту инициативу понимаю.

Весь смысл этого в том, что раз не получилось заставить LLM думать, так нужно хоть скормить ему скрытую от людей информацию, чтобы деньги акционеров не пропали и чатик был конкурентоспособен.

Tsimur_S Mar 14 2025 at 18:07

Хотя скан её в государственной библиотеке есть, но его показывать никому нельзя. А хотят добиться, чтобы ИИ мог его читать, в отличие от людей. Я так эту инициативу понимаю.

Ну я как раз понял инициативу по другому из формулировок в статье. Не добиться что бы ИИ мог ее читать, нет, а что бы если он все же ее прочитает то не выставлять иск/не наказывать.

А уж как он ее прочитает это забота компании владельца ИИ тут ей государство не помощник.

VanillaBerry Mar 14 2025 at 17:33

за прочтение копирайтной статьи или за ее скачивание

За прочтение и скачивание нет. А вот за свободный доступ к статьям пытаются прижимать. Долгих лет сайхабу и здоровья Александре.

proxy3d Mar 14 2025 at 19:37

Проблема openai в том, что они за все время имея бюджеты не привнесли ничего нового в разработку самих нейронных сетей. Не рассмотрели, с чем связаны проблемы обучения, галлюцинаций.

Вообще это проблема всей отрасли. Что у нас Яндекс и Сбер, что у них openai и Claude, все только пытаются решить проблемы данными. Совершенно не развивая внутренние структуры самой основы.

Основной прорыв был с 2000-2020 , когда были предложены и разные LSTM, transformer разные подходы residual и так далее.

На сегодня, прогресс конечно есть, это SSM модели, которые учитывают временную компоненту в скрытых слоях (по сути улавливают ритмы). Но это разработка 2024 года (та же mamba, h3) и пока не завоевали ещё такой популярности.

Проблема ведь не в объемах данных. А в архитектуре самих трансформеров, которая очень примитивно реализует важную часть неокортекса.

В комментарии я привел пример, как понимание проблем трансформера, позволяет существенно улучшить его качество.

Я сейчас разбираю как раз трансформеры.

https://t.me/greenruff/2201?single

И понимание что в реальности они реализуют, позволило существенно улучшить их качество. Ускорило обучение и качество обучения.

Мне очень печально видеть обсуждение проблемы обучаемых данных, но при этом полное игнорирование основ проблемы механизмов, которые они реализуют.

Пока я больше восхищаясь DeepMind, так как у них в команде нейробиологи, которые пытаются расширить хоть не сами трансформеры (что печально), но взаимодействие разных областей мозга (их модель flamingo к примеру).

Мне бы хотелось, чтобы хотя бы наши разработчики учитывали и изучали не только математику, но природу процессов.

arse00n Mar 15 2025 at 06:08

Прогресс гигантский за очень короткий срок, посмотри как работает микроскопическая 1б моделька gemma3 хотя бы, кто мог представить себе такое пару лет назад?

proxy3d Mar 17 2025 at 07:22

Вы правы, что модели вроде Gemma 1B могут достигать высоких результатов благодаря оптимизации архитектуры и методов обучения (например, distillation, улучшенные алгоритмы). Это конечно важно. И хотя трансформеры доминируют, новые архитектуры (SSM, Mamba, RWKV, H3) уже появляются и показывают потенциал после 2020 года. Но вы смотрите на прогресс с точки зрения практических достижений. Поэтому путаете улучшение конечного продукта с фундаментальными архитектурными прорывами. Достижения вроде Gemma3 – это оптимизация текущего подхода, а не создание новых типов нейросетей.

Моя ключевая мысль об архитектурных ограничениях. Так как большая часть ключевых архитектурных открытий (LSTM, трансформеры, residual-связи) произошла до 2020 года, а после этого существенных революционных изменений не было. Это приводит к тому, что проблемы вроде галлюцинаций часто рассматриваются как проблема данных, а не самой структуры моделей.

Основные проблемы (галлюцинации, зависимость от данных, слабое моделирование когнитивных процессов) остаются нерешёнными, и работа над архитектурой могла бы помочь больше, чем просто обучение на больших наборах данных.

Я говорю о необходимости менять «двигатель» (архитектуру), а вы хвалите улучшенный «бензин» (данные и оптимизацию). Вы правы, но проблема в том, что без нового «двигателя» рано или поздно упрётесь в пределы старого.

QwertyOFF Mar 14 2025 at 20:53

Это те же самые ребята, которые ныли, что DeepSeek якобы обучался на выдаче ChatGPT?

fossfusion Mar 14 2025 at 21:57

То был зловредный авторитарный deepseek, не путайте с демократичным Chatgpt

ADDA16 Mar 14 2025 at 23:20

Ну так и пусть используют. Спрашивать разрешения не надо. Права авторов никак не могут пострадать, равно как и сами авторы, ни в какой форме, ни в каких угодно масштабах. Просто копируй и юзай.

qyix7z Mar 15 2025 at 04:08

Права авторов никак не могут пострадать, равно как и сами авторы

Они - нет. А вот издатели - да. Точнее захотят посчитать себя пострадавшими и пойдут в суд. И тогда OpenAI придется тратить много денег на юристов с непредсказуемым результатом, ибо суд - это не про истину и справедливость, а про состязательность. Чьи юристы более ~~болтливые~~ убедительные, тот и прав.

Китайцы уже не спросили разрешения и взяли, но в Китае не так любят судиться по поводу и без, как любят это в Америке. Поэтому китайцы уже взяли и плевать хотели на американских издателей, а OpenAI хочет от Трампа подстелить соломки в виде федерального закона.

ADDA16 Mar 19 2025 at 09:32

А вот издатели - да

Плевать на издателей. Они не авторы. Они барыги и как всякие барыги - ничтожества. Нормальные люди их презирают и их интересы будут всегда проигнорированы.

qyix7z Mar 19 2025 at 09:54

Нормальные люди может и да, а суд, при получении от них иска - точно нет.

ADDA16 Mar 19 2025 at 11:36

Да и на суд плевать, если в нём заседают ничтожества.

qyix7z Mar 19 2025 at 12:22

~~Увидимся~~ удачи в суде с такой позицией :3