Комментарии 67
Вот. Только что с иронией вспоминал эту инициативу. Особенно на фоне кадров из фильмов один в один, целых предложений книг, частей картин и много другого, что нейросети проглотили в свое время и выдают пользователям. А не хотят честную сделку с авторами заключить, заплатить? Если люди против - разработать систему, которая позволит отмечать свой контент. Коли его все равно сперли и это вскрылось, то и штрафы должны быть солидными.
На что только капиталист не пойдет ради лишней печеньки...
Тут есть одна (две, три..) проблема - как найти автора у всего контента в интернете? Как честно определить стоимость контента? Как заключить с ним договор и сделать выплату, если он -- SmartPussyViper1236? Тут задачка на миллионы или миллиарды человекочасов - разве что ИИ поручить, но для этого надо сначала обучить, нарушив права.
Насколько я понимаю, речь идет не о том чтобы даром потырить пару строчек кода на Python, которые оставил на каком-либо форуме неизвестный SmartPussyViper1236, а о том чтобы мести широким бреднем вообще все что есть в сети, игнорируя авторские права даже когда они явно обозначены.
Так в этом и смысл обучения - использовать вообще все что доступно, ведь это позволяет получить именно то качество нейросети, которое мы сейчас получили (довольно неплохое для определенных целей).
А так, конечно, вопрос открытый, насколько это легально, морально и тд. Если я прочитал Пелевина и под впечатлением написал свою книгу, должен ли я платить авторские Пелевину? (спойлер: нет) А если это сделала нейросеть, почему она должна?
Противоположные аргументы можно тоже долго выписывать, можно даже поручить это нейросети.
Если я прочитал Пелевина и под впечатлением написал свою книгу, должен ли я платить авторские Пелевину?
Смотря насколько близко вы написали.
Я полагаю, что основная проблема для многих в двойном стандарте. Или у нас коммунизм и всеобщий доступ к знаниям, или же всякие там авторские, смежные и ещё черт сломит ногу какие права. Как так получается, что в целях повсеместного развития науки распространять знания нельзя, а в целях прибыли одного крупного капиталиста внезапно можно?
Так нюанс как раз в том, что прямого распространения нет. Есть только "рабинович напел". Вот на википедии есть краткий сюжет многих произведений, надо ли обязать википедию покупать права на те книги, которые она описывает?
Впрочем, сейчас провел эксперимент, попросил Грока написать главу из "Преступление и наказание". Получилось очень похоже. Есть отличия, но часто целые предложения совпадают.
или же всякие там авторские, смежные и ещё черт сломит ногу какие права.
Чёрт (поигрывая киянкой): Вызывали?
Весь вопрос в том, что вы должны платить за доступ к книге Пелевина, а для ИИ хотят получить доступ бесплатно.
Почему вы решили что бесплатно?
А как технически организовать оплату в таком масштабе?
Примерно как налог на болванки
https://habr.com/ru/news/676714/
А как технически организовать оплату в таком масштабе?
Так же как организовывают оплату покупки книг библиотеками.
Которые, кстати, имеют право показывать те книги, что 'выучили' есть. Осталось сделать юридический хак - объявить систему ИИ (интеллектуальной) библиотекой. Да еще под какую-нибудь льготу или субсидию по этому поводу попасть.
Нет, это так не работает. Почитать Пелевина я могу взять у друга или в библиотеке, но даже если эта опция недоступна, все что я теряю, это стоимость одной копии. Вряд ли речь идет о подобных суммах в вопросе парсинга нейросетями.
Ну и ИИ получает не просто доступ, он получает всю информацию для настройки его нейросети. В общем, аналогия ломается.
Вопрос не в сумме. В соседнем государстве вы запросто можете вообще не иметь легального способа прочесть Пелевина, так как нет действующего литагента. Та же проблема, например, с Муркоком в России. Для большинства охраняемых текстов права на их воспроизведение получить просто невозможно.
Бумажные книги в библиотеках представляют собой исключение, но для ИИ они не подходят.
Бумажные книги в библиотеках представляют собой исключение, но для ИИ они не подходят.
Самое смешное, если всей этой борьбой добъются "ну, ОК, уговорили. Поставим робота в библиотеку - бумажные книги просматривать и запоминать".
Кто будет платить за место в библиотеке, за оператора, который приносит и сканирует книги, за электричество муниципальное, которое сожрёт робот?
Если скажете "это же библиотека - она бесплатная", то я расстрою вас. Муниципалитет оплачивает библиотеку из своего бюджета, из налогов, которые с нас собрал. Т. Е. Вы с широкой душой подарили капиталистам в ОпенЭйАй наши деньги.
Капиталисты из опенаи отгружают свою гопоту бесплатно сотням миллионов людей ежедневно, что за наезды. А некоторые их конкуренты даже свои модели раздают всем желающим.
А Microsoft сквозь пальцы смотрит на альтернативные каналы распространения и активации Windows уже лет 40.
Не беспокойтесь об ОпенЭйАй. А хотите помочь прогрессу, то становитесь волонтером или дома, как пользователи Альдебарана, сканируйте и грузите в открытое комьюнити. Только не расстраивайтесь, если Через некоторое время «новый Литрес» где-то в глубине офиса в башне в ОАЭ тихо-тихо скажет Вам: «Спасибо, лошарик». А Вы не сможете в Сети бесплатно найти книгу, которую сами же скандировали и вычитывали.
У Гугла проект по сканированию книг в библиотеках есть. Он тоже столкнулся с проблемами по авторскому праву, вроде как, но очень много книг было отсканировано.
Если я прочитал Пелевина и под впечатлением написал свою книгу, должен ли я платить авторские Пелевину?
Таня Гроттер смотрит на судей затаив дыхание.
Вы думаете она беспокоятся о правах анонимного pussy? Его контент давно умяли. Речь о данных, авторство и права на которые хорошо известны и они имеют цену. Показательно дело NYT против OpenAI. Их нейросистемы просто слопали статьи, которые были по платной подписке, т.е для читателей журнала без премиума она не видны. Потом целые куски текста оттуда начали раздавать чат-боты. Не перефразированные!
Не проблема. Не можешь заключить договор — не используй. Не можешь создать модель без тыреных данных — не создавай.
Тут есть одна (две, три..) проблема - как найти автора у всего контента в интернете? Как честно определить стоимость контента?
Что значит "честно"? Сколько автор запрашивает - столько и честно.
Не нравится выставленная автором цена - не соглашайтесь на неё, да и всё.
Ну окей, нужна теперь какая-то система, в которую авторы будут загружать свои правообладательные творения, и куда роботы ЛЛМ будут ходить и смотреть, что почём. Если цена не нравится, не парсить.
Осталось создать систему, убедить правообладателей ей пользоваться, а роботообладателей - не пользоваться контентом извне.
Но что-то мне не очень нравится такой мир, в котором опять многомиллиардные правообладательные корпорации нагнут прогресс, даже если автором прогресса являются другие многомиллиардные корпорации.
Ну окей, нужна теперь какая-то система, в которую авторы будут загружать свои правообладательные творения, и куда роботы ЛЛМ будут ходить и смотреть, что почём.
Будут загружать, но только если захотят, чтобы на них обучались модели ИИ.
Но что-то мне не очень нравится такой мир, в котором опять многомиллиардные правообладательные корпорации нагнут прогресс, даже если автором прогресса являются другие многомиллиардные корпорации.
Данный случай - смешной как раз потому, что компании, которые яростно защищают интеллектуальную собственность, и компании, которые хотят свободно пользоваться чужими материалами, - это примерно одни и те же компании.
Просто защищают они своё, а хотят пользоваться чужим.
А сколько должна платить "нейросеть" за одну прочитанную книгу? Столько же, сколько человек? А если она абонемент в библиотеку "купит", то она имеет возможность "прочитать" все книги, которые есть в публичной библиотеке? Если да, то остаётся будет только купить по одному экземпляру каждой книги, которой нет в публичной библиотеки. Ориентировочно по прикидкам нейросети на это уйдёт 200-300млн$, вполне приемлемые деньги.
Особенно на фоне кадров из фильмов один в один, целых предложений книг, частей картин и много другого, что нейросети проглотили в свое время и выдают пользователям.
Это где они у вас такое выдают? Каким именно образом?
Нейросети не хранят в своей памяти всю обучающую выборку, только "выводы", сделанные при обучении.
Если вы вдруг встретите нейросеть, которая может выдать в точности весь тот материал, на котором обучена, срочно сообщите, потому что это будет новое слово в архивировании данных.
Более того, они только извлекают признаки из текстов и их связи. По сути частоту распределения связей и признаки связей друг с другом. Они не раздают книги и статьи 1 в 1. Они не могут это сделать. Но могут пересказать суть, как обобщенные данные извлечённые зависимостей и связей. А это совсем другое, чем просто копировать данные.
Ну, на деле нейросети могут и "из памяти" 1 в 1 пересказывать. Но не любую литературу, а только ту, которая в датасете очень сильно размножена и присутствует огромное количество раз.
Таких произведений крайне мало, но они есть. Пересказывать Библию, например, современные нейросети умеют отлично. А вот Гарри Поттера уже нет.
Особенно на фоне кадров из фильмов один в один, целых предложений книг, частей картин и много другого, что нейросети проглотили в свое время и выдают пользователям.
Какой ужас. Наверное, авторы книг и фильмов остались без гонораров.
А классно они это придумали :)
"Китайцы у нас украли наработки, а мы... А мы добросовестно вдохновимся! Парадокс Джевонса никто не отменял -- после выхода DeepSeek мы теперь ещё больше можем... Ах, да, вдохновиться!"
Следите за руками: сначала OpenAI сами лоббируют ужесточение законов касательно ИИ применительно к копирайту и не только, а потом просят для них (и только для них) сделать исключение и особые условия. PROFIT!
А как по твоему это должно работать? Каждый кто читал гарри поттера в колледже на курсе зельеварения должен заключить отдельный договор с Роулинг на использование ее продукции в обучающей среде?
Легко понимаю нежелание топов OpenAI делиться барышами. "Зачем, все же в гугле бесплатно находится? Чего нам каким-то лохам свои кровные отдавать". Интересно, чьи акулы окажутся зубастее - юристы десятков медиа-корпораций или один Sam Altman boy + крыша в виде Трампа
... демократического ИИ
вот и новый термин подъехал. не используйте тот авторитарный ИИ, используйте наш демократический ИИ.
Шел 21 век, ничего не менялось. Права это все ещё того, кого надо права. Права всех остальных могут подвинуться, если слишком дорого их придерживаться. Всё во имя великого бабла добра и демократии, конечно же.
Любые права являются правами пока есть сила, которая восстановит справедливость согласно правилам. Поэтому воровать и убивать физически можно, но если ты простой человек - государственный аппарат будет сильнее и накажет. В современном мире ещё видеозаписи добавились, а это значит что ещё проще найти и наказать.
Но если ты сам государство или очень сильный конгломерат - сила на тебя уже не так действует, её может быть не достаточно. И тогда и воровать и убивать можно. Но только тех и в тех объемах, которые позволят силу перебороть.
С авторским правом примерно также. И да - может казаться что схема не так работает, но тут как с законами физики - они просто есть и даже формулой это можно описать. Теория игр есть, как вариант описания.
Измениться может такое только при наличии какой-то сверхсилы над всеми людьми, которая ещё и правила не даст переписывать и коррупцию искоренит… пока такое только в утопичных теориях существует.
Любые права являются правами пока есть сила, которая восстановит справедливость согласно правилам
Да, это так и есть. И писано об этом много раз, позволю себе цитату.
Государство — это есть машина для поддержания господства одного класса над другим
Все остальное сказки для бедных. Когда надо будет отжать права – отожмут.
Т.е. использовать пиратские библиотеки книг и научных статей для обучения белкового "ИИ" на ножках это плохо (и за это надо оштрафовать, запретить, заблокировать, и даже посадить если получится), а пиратство ради обучения коммерческого ИИ это хорошо и правильно? Тут ведь либо трусы, либо крестик -- тогда и белковому "ИИ" надо разрешить свободный доступ ко всему, невзирая ни на какие копирайты, как минимум для целей личного обучения.
Ви ни панимаити. Этадругое! Сарказм
Просто промокод надо правильный использовать - "в целях национальной безопасности"!
Так белковому ИИ никто и не запрещает учиться. В праве какой страны есть санкции за прочтение копирайтной статьи или за ее скачивание?
Например, в России невозможно получить копию текста чьей-либо диссертации. Только прийти в библиотеку, заказать по МБО и там читать. Или откопировать не более нескольких страниц.
Хотя вроде бы как открытая диссертация публикуется именно для того, чтобы с ней могли знакомиться люди.
Ну это же разные вещи. Вы говорите о физическом доступе к статьям. Статья и автор выше говорит об юридическом преследовании за "чтение" статьи.
Я говорю о том, что авторское право запрещает снимать копии с книг и выкладывать их в открытый доступ. Даже когда весь смысл публикации состоит в открытии доступа.
Почему ИИ сможет прочесть книгу в онлайне, а мне нельзя?
Почему ИИ сможет прочесть книгу в онлайне, а мне нельзя?
Вы используете "сможет" в значении физически сможет или все же в значении ему(точнее его владельцам) разрешат это сделать, судя по "нельзя"?
Если в значении разрешат то вам то как раз можно это делать. Никакой закон не запрещает вам читать книги в онлайне.
Я ж как раз написал - закон об авторском праве запрещает воспроизводить книгу (в том числе и в онлайне) без заключения договора с автором. Поэтому мусолят единственный на весь мир бумажный экземпляр диссертации.
Хотя скан её в государственной библиотеке есть, но его показывать никому нельзя. А хотят добиться, чтобы ИИ мог его читать, в отличие от людей. Я так эту инициативу понимаю.
Весь смысл этого в том, что раз не получилось заставить LLM думать, так нужно хоть скормить ему скрытую от людей информацию, чтобы деньги акционеров не пропали и чатик был конкурентоспособен.
Хотя скан её в государственной библиотеке есть, но его показывать никому нельзя. А хотят добиться, чтобы ИИ мог его читать, в отличие от людей. Я так эту инициативу понимаю.
Ну я как раз понял инициативу по другому из формулировок в статье. Не добиться что бы ИИ мог ее читать, нет, а что бы если он все же ее прочитает то не выставлять иск/не наказывать.
А уж как он ее прочитает это забота компании владельца ИИ тут ей государство не помощник.
за прочтение копирайтной статьи или за ее скачивание
За прочтение и скачивание нет. А вот за свободный доступ к статьям пытаются прижимать. Долгих лет сайхабу и здоровья Александре.
Проблема openai в том, что они за все время имея бюджеты не привнесли ничего нового в разработку самих нейронных сетей. Не рассмотрели, с чем связаны проблемы обучения, галлюцинаций.
Вообще это проблема всей отрасли. Что у нас Яндекс и Сбер, что у них openai и Claude, все только пытаются решить проблемы данными. Совершенно не развивая внутренние структуры самой основы.
Основной прорыв был с 2000-2020 , когда были предложены и разные LSTM, transformer разные подходы residual и так далее.
На сегодня, прогресс конечно есть, это SSM модели, которые учитывают временную компоненту в скрытых слоях (по сути улавливают ритмы). Но это разработка 2024 года (та же mamba, h3) и пока не завоевали ещё такой популярности.
Проблема ведь не в объемах данных. А в архитектуре самих трансформеров, которая очень примитивно реализует важную часть неокортекса.

Я сейчас разбираю как раз трансформеры.
https://t.me/greenruff/2201?single
И понимание что в реальности они реализуют, позволило существенно улучшить их качество. Ускорило обучение и качество обучения.
Мне очень печально видеть обсуждение проблемы обучаемых данных, но при этом полное игнорирование основ проблемы механизмов, которые они реализуют.
Пока я больше восхищаясь DeepMind, так как у них в команде нейробиологи, которые пытаются расширить хоть не сами трансформеры (что печально), но взаимодействие разных областей мозга (их модель flamingo к примеру).
Мне бы хотелось, чтобы хотя бы наши разработчики учитывали и изучали не только математику, но природу процессов.
Прогресс гигантский за очень короткий срок, посмотри как работает микроскопическая 1б моделька gemma3 хотя бы, кто мог представить себе такое пару лет назад?
Вы правы, что модели вроде Gemma 1B могут достигать высоких результатов благодаря оптимизации архитектуры и методов обучения (например, distillation, улучшенные алгоритмы). Это конечно важно. И хотя трансформеры доминируют, новые архитектуры (SSM, Mamba, RWKV, H3) уже появляются и показывают потенциал после 2020 года. Но вы смотрите на прогресс с точки зрения практических достижений. Поэтому путаете улучшение конечного продукта с фундаментальными архитектурными прорывами. Достижения вроде Gemma3 – это оптимизация текущего подхода, а не создание новых типов нейросетей.
Моя ключевая мысль об архитектурных ограничениях. Так как большая часть ключевых архитектурных открытий (LSTM, трансформеры, residual-связи) произошла до 2020 года, а после этого существенных революционных изменений не было. Это приводит к тому, что проблемы вроде галлюцинаций часто рассматриваются как проблема данных, а не самой структуры моделей.
Основные проблемы (галлюцинации, зависимость от данных, слабое моделирование когнитивных процессов) остаются нерешёнными, и работа над архитектурой могла бы помочь больше, чем просто обучение на больших наборах данных.
Я говорю о необходимости менять «двигатель» (архитектуру), а вы хвалите улучшенный «бензин» (данные и оптимизацию). Вы правы, но проблема в том, что без нового «двигателя» рано или поздно упрётесь в пределы старого.
Это те же самые ребята, которые ныли, что DeepSeek якобы обучался на выдаче ChatGPT?
Ну так и пусть используют. Спрашивать разрешения не надо. Права авторов никак не могут пострадать, равно как и сами авторы, ни в какой форме, ни в каких угодно масштабах. Просто копируй и юзай.
Права авторов никак не могут пострадать, равно как и сами авторы
Они - нет. А вот издатели - да. Точнее захотят посчитать себя пострадавшими и пойдут в суд. И тогда OpenAI придется тратить много денег на юристов с непредсказуемым результатом, ибо суд - это не про истину и справедливость, а про состязательность. Чьи юристы более болтливые убедительные, тот и прав.
Китайцы уже не спросили разрешения и взяли, но в Китае не так любят судиться по поводу и без, как любят это в Америке. Поэтому китайцы уже взяли и плевать хотели на американских издателей, а OpenAI хочет от Трампа подстелить соломки в виде федерального закона.
OpenAI попросила разрешить США обучать ИИ на материалах, защищённых авторским правом, как «добросовестное использование»