Как стать автором
Обновить

Фотограф попросил удалить свои работы из набора обучающих данных LAION, в ответ ему выставили счёт на €887

Время на прочтение 2 мин
Количество просмотров 71K
Всего голосов 79: ↑77 и ↓2 +75
Комментарии 533

Комментарии 533

Программисты изнасиловали фотографа(с).жпг

Фотографии как таковых в обученнй сетке нет. Насколько я понимаю, за просмотр этих изображений роялти не полагаются. Так что иск от компании облснованный, а фотографу стоит хоть немного разобраться в теме, прежде чем угрожать, требовать и жаловаться. Глупость наказуема.

Фотографии как таковых в обученнй сетке нет.

Поясните, пожалуйста. Если Вы имеете в виду, что в выборке находится какой-то производный материал от фото (фото, преобразованное в формат, пригодный для обучения сетки – нужного размера, с нужным набором цветов, в нужном формате закодированный, не знаю, что ещё там может быть), то это всё равно фото, просто прошедшее предварительную обработку. Или Вы имеете в виду что-то другое?

Я не знаком подробно с механизмом обучения таких сетей, так что мне правда интересно. Я полагал, что в каком-то виде фотографии при обучении используются.

Они как Яндекс хранят только ссылки на изображение и потом продают коллекцию ссылок. Это как если бы вы историю своего браузера Продали или ссылки из избранного

Ну как бы тот же Рутрекер тоже не хранит у себя объекты авторского права, но его почему все равно заблокировали. В чем разница?

Ну так там за уши притянули распространение пиратского контента. А тут Вася выложил в общий доступ фотки для бесплатного просмотра, кто-то адреса фоток собрал. Продал коллекцию общедоступных адресов.

Теперь Вася не доволен, что адрес его общедоступной фотки продали. Это как если я адрес музея кому-то скажу, потом меня засудят за пиратство контента

Просмотр людьми и использование в программном мега-продукте - разные юридические категории. Тем более, что мега-продукт нацелен на извлечения прибыли, а просмотр разрешен ради рекламы способностей фотографа.

Одно дело, когда новые технологии честно вытесняют старые, другое, кода большой бизнес пользуется мелким как бесплатными мартышками.

И тут нельзя сказать что в нейронке не хранится само фото если оно использовалось для изготовления самой сети.

Возьмем мысленный эксперимент: есть два талантливых художника. Одному волей случая повезло стать известным, второму нет. У первого за дорого покупают картины в определенном стиле, второй ничего не может продать.

И вот, неудачьник решает стать подражателем первого, рисует картины в его стилистике (но не копирует) и начинает зарабатывать.

Кто будет прав, если первый подаст в суд второго и потребует возместить недополученную прибыль?

Просмотр людьми и использование в программном мега-продукте - разные юридические категории. Тем более, что мега-продукт нацелен на извлечения прибыли, а просмотр разрешен ради рекламы способностей фотографа.

Ну значит удалить фотографа из всех поисковых систем. Ибо хранят ссылки? Хранят. Просматривает (и индексирует) их робот? Робот. Корпорации владеющие поисковыми системами являются мега-корпорациями? Да. Делают это ради получения прибыли (в отличии от некоммерческой laion) ?- делают. Вывод? Нафиг из выдачи ссылки на фото (а из поиска по картинкам - и сами фото в виде кэшированных превью). Пусть через сарафанное радио ищут.

Ибо хранят ссылки?

На это он вроде согласен. И на просмотр человеком согласен. А на именно "использование в коммерческих целях" не согласен. Напишите код. Его просмотрит нейросеть, а вам потом денег не даст. Патамушта она сама код написала, а вы тут ни при чём.

На это он вроде согласен. И на просмотр человеком согласен. А на именно "использование в коммерческих целях" не согласен.

Претензии у него к LAION. Laion учит на датасете? Нет. Laion просто аггрегирует ссылки. И выгладывает их (а не фото) на некоммерческой основе для всех (в отличии от гугла, который делает это на коммерческой основе, монетизируя рекламой). А кто по ним уже пройдет и посмотрит — от них не зависит.


Это как предъявлять претензии к гуглу за то, что кто-то учит сеть на результатах запроса к google image search.


Напишите код. Его просмотрит нейросеть, а вам потом денег не даст. Патамушта она сама код написала, а вы тут ни при чём.

Напишите код, залейте его в публичный гитхаб-реп, который виден всем, под лицезией не запрещающий его просмотр, изучение и формирование определенных выводов по результату изучения. Кто-то пройдет и посмотрит, освоит на примере вашего кода какие-то годные ООП-практики (не заучивая сам код и сам код никак напрямую и косвенно не используя) и потом пойдет писать свой код на работе (т.е за деньги), используя освоенные практики. И вам, внезапно, не заплатит. Есть в этом что-нибудь странное? Вроде нет. А нейронки именно так и делают.

 Laion учит на датасете? Нет. 

У Вас видимо пруфы есть на это.

Напишите код, залейте его в публичный гитхаб-реп, который виден всем

И в котором есть условия использования, с которыми Вы согласились на его использование другими. А можете показать условия репозитория фотографа? Что там написано? Посмотрел-понравилось-купил? Или посмотрел-поматросил-бросил?

У Вас видимо пруфы есть на это.

Зайдите на их сайт, посмотрите их проекты. У них нет ни одной генеративной text2image модели. Они не этим занимаются. С таким же успехом у меня нет пруфов, что яндекс и гугл не учат генеративные модели на своей выдаче.


И в котором есть условия использования, с которыми Вы согласились на его использование другими.

Могу показать вам 1000 и 1 реп без каких-либо условий и лицензий (т.е по-умолчанию условия площадки). Художник свои работы на публичный доступ тоже на площадках выкладывает. И я очень глубоко сомневаюсь что в их условиях сказано, что смотреть на изображения имеет право только белковый интеллект/человек и что выводы из просмотренного может делать только белковый интеллект/человек. Они запрещают копирование и переиспользование, но ничем из этого обучающаяся модель не занимается. Она буквально "смотрит и делает выводы", меняя лишь коэфициенты своих весов, причем заранее созданных при инициализации модели, еще до увиденной первой картинки. Она даже новых весов внутри себя она не создает, в отличии от человека, новые нейронные связи формируюещего (т.е по сути куда больше выносящего из увиденного).

Если Вы посмотрели чужой чертеж велосипеда (который разрешено смотреть, но не более) и сделали на его основе велосипед (велосипед же не чертеж), то Вы полагаете что Вы не должны занести автору чертежа? Просто исходя уже из того, что сам чертеж Вы не копировали?

Вы будете шокированы, однако —

Авторские права не распространяются на идеи, концепции, принципы, методы, процессы, системы, способы, решения технических, организационных или иных задач, открытия, факты, языки программирования, геологическую информацию о недрах.

Гражданский кодекс РФ, статья 1259, пункт 5 (полный текст в википедии).

Чертеж велосипеда - это не "способ решения технической задачи", данный пункт тут вообще неприменим.

Полагаю, что комментатор выше хотел сказать, что чертеж в данном случае не является объектом авторского права. Для интеллектуальной собственности существует патентое право и регулируется оно иначе.

Объектами авторских прав являются произведения науки, литературы и искусства независимо от достоинств и назначения произведения, а также от способа его выражения:

...

произведения архитектуры, градостроительства и садово-паркового искусства, в том числе в виде проектов, чертежей, изображений и макетов;

Это из цитируемой автором ГК 1259. В этом плане чертеж полагаю вполне может быть объектом авторского права, как и изображенное на нем изделие, если оно существует в единственном экземпляре и несет в себе какую-то новизну. Вот ситуацией когда дальше по чертежу что-то более-менее массово создается, безусловно занимается уже патентное а не авторское право. Но исходный комментарий на который была опубликована цитата из ГК вообще говоря и не ограничивался авторским правом.

А чертёж в изложенном случае никто не копировал. При строительстве велосипеда никакой копии чертежа не было.

Комментатор хотел сказать, что речь вообще не про чертёж. Чертёж никак не был использован при делании велосипеда. Велосипед был сделан на базе идеи, концепции, принципа, созданного в уме посмотревшего человека.


Ваш комментарий я тоже поддерживаю, он стал хорошим дополнением. Однако я не обратился в эту сторону, потому что 1 велосипед не нарушает патентного права, ведь его не продают.

Посмотрел-понравилось-купил

Посмотрел-не понравилось-не купил )

Так Stable Diffusion опенс сорс проект, за него денег не берут, если конечно ты на своём железе его используешь.

Ну в США пытались судить журналиста, который просто посмотрел код WWW-странички в браузере, и увидел там что-то типа списка паролей (именно в коде скрипта, а не на сервере), о чем и написал статью - типа взлом программы и обучение взлому.

Там были номера соцстрахования в США

Правильно-ли я вас понимаю, что вы считаете, что автор и собственник объекта, охраняемого авторским правом, не может сам определять как ему распоряжаться этим объектом?
И какая-то организация имеет больше прав в определении порядка использования его творений, чем он?

Напишите код, залейте его в публичный гитхаб-реп, который виден всем, под лицезией не запрещающий его просмотр, изучение и формирование определенных выводов по результату изучения.

Из-за этого вы не потеряете свой доход и свою работу.

Если подписывает своим именем - не засудить... Иначе бы Пикассо всех кубистов засудил бы. Более того, даже вы можете нарисовать квадрат и покрасить его в черный цвет. Но без подписи Казимира Малевича вряд ли продадите :)

Возьмем мысленный эксперимент:

Корректнее такой эксперимент: препод в художественном вузе дает своим студентам адрес сайта, чтобы они ознакомились с образцами современного искусства и написали по результатам курсовую. Вопрос: имеет ли право художник, чьи работы представлены на сайте, требовать от кого-либо денег? Работы его, на них не просто смотрят, а используют в учебном процессе. Препод получает зарплату за преподство, студенты - обрастают знаниями, повышают свою стоимость как наемных сотрудников, конкуренция тому же художнику подрастает...

Обучать студентов и загружать фотки в нейронку не одно и тоже.

Студенты совершенствуется и потом создает свое искусство не только на увиденном но и на своем жизненном опыте и на опыте препода.

А нейронка просто перетасовывает загруженные фотки. Причем, загружаются не всякий мусор а по возможности лучшие работы.

НЛО прилетело и опубликовало эту надпись здесь

Ну уж точно с верхних полок а не с нижних :)

Нет, там все подряд. Из-за этого часто в моделях проблемы и вылезают. И поэтому плодятся дообученные модели которые на отборных сетах обучаются.

А вы уверенны что знаете как тренируют нейронные сети?
"загружать фотки в нейронку " Вот это словосочетание меня заставляет сомневаться в вашем понимании процесса.

Чем плохо такое упрощение? Суть сказанного от этого не меняется.

Студенты при просмотре тоже в мозг фотки загружают. И рисуют не из жизненного опыта, а перетасовывая загруженные фотки и изображения реального мира, загруженные из зрительного аппарата. И творят не своё искусство, а коллаж из увиденного ранее по жизни. Слепой вам ничего подобного не нарисует — не из чего коллаж делать.


Норм упрощение.

Ну вообще в живописи таки есть понятие "плагиата" и на Западе оно вполне себе ведет к судебным разбирательствам. Тут довольно тонкая грань и ее вполне можно провести по линии "сколько своих собственных сил вложил автор в работу".

Да. В текущей ситуации предлагаю судить нейронку (точнее, её авторов) за каждый случай плагиата. Плагиат доказывается так: 1) изображение присутствовало в обучающей выборке (сеть видела фотку) и 2) результат сети очень похож на это изображение.

В таком случае, это задача авторов сети организовать обучение и архитектуру сети так, чтобы сеть не могла более-менее точно воспроизвести ни одно изображение из обучающей выборки.

Это гораздо более конструктивно, чем судиться с разработчиками нейронки за нарушение авторских прав — существование изображения в «памяти» нейронки сложно доказать, кроме как через случаи плагиата.

И вот когда их завалят жалобами за плагиат, тогда пусть и работают над математкой и методами обучения и семплирования данных. Пример уже есть: разработчики ChatGPT, насколько я понял, подсуетились и напрямую запретили своей сети цитировать тексты из обучающей выборки.

Я не думаю что от того что нейросетку научат лучше перемешивать произведения разных авторов смысл происходящего принципиально изменится.

Я рассуждаю так: написать по памяти свою версию картины - приемлемо. Сфотографировать картину и продавать фотографию как самостоятельное произведение - нет. Разница в том что нарисовать свою картину сложно и требует определенных затрат усилий и наличия навыков у автора, а сфотографировать - просто. По сути мы переложили всю сложность по созданию нового произведения на создателей фотоаппарата и автора исходной картины. Работа с нейросеткой мне видится похожей на работу с очень навороченным и сложным, но все же техническим приспособлением по перемешиванию чужих изображений, схожим по объему вклада чего-то нового в творчество.

Работа с нейросеткой мне видится похожей на работу с очень навороченным и сложным, но все же техническим приспособлением по перемешиванию чужих изображений, схожим по объему вклада чего-то нового в творчество.

Тогда фотография — не искусство. Причем любая. Это просто работа с навороченным и сложным техническим приспособлением. Задал настройки, ракурс, свет, нажал кнопку — и дальше оно само запечатлело реальный (не созданный автором) уже существовавший объект, само его фильтром байера свело и в RAW/JPG сохранило. Творческой деятельности не больше чем с нейронкой, в основном тупо технические навыки.


А если таки установка ракурса/настроек/света для получения хорошего результата — это искусство, то и установка гиперпараметров, настроек, модулей, обучение и использование подключаемых эмбедингков/лор/гиперсетей и, самое главное, составление корректного позитивного и негативного промта с корректной развесовкой — тоже искусство.


Без всего этого сеть сделает "бррр" и выдаст мешанину инсульто-подобной трехголово-восьмирукой фигни покрытой пальцами, на каких бы шедеврах она не училась.

Тогда фотография — не искусство. Причем любая. Это просто работа с навороченным и сложным техническим приспособлением.

Да, в некоторых странах есть такой подход. Там делят фотографии на творческие и не-творческие.

Увы, в России любое действие фотографа заведомо признаётся творческим. И даже если совсем другой человек настроил камеру и выбрал кадр — права принадлежат именно фотографу, который нажал на кнопку.

Сфотографировать картину и продавать фотографию как самостоятельное произведение - нет.

Рынок книжек с репродукциями немного не согласен. Продается, разумеется, именно как репродукция, а не 'я сам нарисовал'.

Так репродукции нельзя создавать без разрешения правообладателя.

2) результат сети очень похож на это изображение.

Причем критично чтобы он буквально был похож (т.е изображал тот же объект в ± том же ракурсе и т.д). Т.к если похож стиль, но нарисовано то чего исходный автор ни разу не рисовал — то это уже не плагиат (а стиль авторским правом не охраняется, только конкретные изображения).

2) результат сети очень похож на это изображение.

При таком подходе осудят всех пользователей нейронки, потому что российский суд может.

Кажется тут не плагиат доказывается, а создание производного произведения.
Давайте вы выложите в сеть свой мегагениальный рассказ, кто-то переведет его и еще несколько рассказов с АвторТудей и выпустит сборник на китайском, который станет бестселлером.
Вы имеете право потребовать денег/убрать рассказ из сборника?
Ну или мульт по рассказу снимут. Тоже ведь будет совсем не похоже.

Вы имеете право потребовать денег/убрать рассказ из сборника?

Ну вообще-то да, в описанной ситуации - полное право. С мультом сложнее, будет зависеть от того насколько близко он следует первоисточнику, но как правило это тоже запрещено.

Давайте вы выложите в сеть свой мегагениальный рассказ, кто-то переведет его и еще несколько рассказов с АвторТудей и выпустит сборник на китайском, который станет бестселлером.

Именно так и работает свободное программное обеспечение и свободный контент, именно на таком неограниченном коммерческом использовании построено всемирное движение Open Source, которое широко развивают участники Хабра.

Переводить чужую работу на другие языки (форк), компилировать сборники (сборки), снимать мульты и писать статьи на Хабр — считается нормальным.

 считается нормальным.

... только при условии что это явно разрешил автор

Опенсорс "работает" на специально и тщательно составленных опенсорс-лицензиях. Без них любого опенсорсника или того кто воспользовался опенсорсной библиотекой можно было бы засудить на большие суммы.
Для художников тоже есть такие лицензии — и по идее только такие работы и можно бесплатно и без спроса использовать в обучающих выборках.

Спасибо! Я хотел подчеркнуть именно то, что вы написали. Я хотел подчеркнуть, что опенсорс-лицензии — это обычное, нормальное, общепринятое поведение современных авторов.

Просмотр людьми и использование в программном мега-продукте - разные юридические категории. Тем более, что мега-продукт нацелен на извлечения прибыли, а просмотр разрешен ради рекламы способностей фотографа.

Фотограф в гугл не жаловался, что он проиндексировал его фотки?

Работа гугла в интересах фотографа, работа нейронки - против.

Ну то есть так и запишем — "если с какой-то фигни получаю выгоду я — это хорошая фигня, а если выгоду получает дядя — то это плохая фигня".

Да, люди, они такие, не то что роботы. :)

Ну как бы да, хорошо-плохо это субъективные оценки.

Гуглим например про суд Perfect 10 к гуглу. Вот эти фотографы решили в суде доказать что гугл не в их интересах работает

Просмотр людьми и использование в программном мега-продукте - разные юридические категории. Тем более, что мега-продукт нацелен на извлечения прибыли, а просмотр разрешен ради рекламы способностей фотографа.

Но человек тоже может быть нацелен на получение прибыли и для этого долго изучать фотографии других людей для приобретения опыта. Нужно ли штрафовать таких людей после начала продаж своих фото?

Тем более, что мега-продукт нацелен на извлечения прибыли, а просмотр разрешен ради рекламы способностей фотографа.

Не соглашусь.

После рождения фотограф вообще ничего не мог, не знал, не умел. У него не было способностей, не было знаний. Но во время своего развития в целях извлечения прибыли он много раз просматривал изображения других фотографов, которые размещали свои изображения для рекламы собственных способностей. Фотограф же вместо покупки услуг других фотографов - использовал их коммерческие изображения для обучения собственной нейронной сети с целью впоследствии самостоятельно оказывать коммерческие услуги. Он никому не заплатил денег за просмотр чужих работ, но когда кто-то другой стал просматривать его работы - начал требовать заплатить ему денег за факт просмотра.

Тут вполне имеет право на жизнь такая логика. Просто у "обычного человека" и у "огромной нейросети" отличается скорость мышления. То, на что обычный человек может потратить год - нейросеть может сделать за час, используя при этом в сотни тысяч раз больше ресурсов, чем доступно человеку.

Рутрекер, хотя бы, хранит метаданные (в виде torrent-файла). А тут вообще тупо ссылка.

Причём ссылка, созданная самим же автором.

А ссылка не метаданные?

Нет, это просто адрес. А по адресу может быть все что угодно.

это просто адрес. А по адресу может быть все что угодно.

Кстати, об NFT-токенах...

А причем тут они? Речь шла о ссылках. В них в общем случае никаких метаданных не содержится. Пока не перейдешь, не узнаешь, что там. Может вообще 404

данные отлично можно хранить в ссылках типа "data:,this_is_the_text"

подробности читайте тут : https://www.rfc-editor.org/rfc/rfc2397

Я и не говорил, что это принципиально невозможно. Я говорил, что обычная ссылка в общем случае метаданных не содержит. Вот вы мне ссылку привели. Пока я по ней не перейду, я не узнаю что там. Может html-документ, может картинка, может видео и пр.

"обычная ссылка" содержит в себе указание на сервер и документ.
Но я мог ее например сделать
https://www.rfc-editor.org/rfc/rfc2397?top_secret_data_about_reptiloids=they_are_alive :)

Да, содержит. И параметры можно передавать какие угодно. И что? Я могу дать вам ссылку на несуществующий сервер/документ, но узнаете об этом вы только тогда, когда попробуете посетить этот адрес. Или параметров может быть целая куча, только вот сервер их никак не обрабатывает.

А причем тут они? Речь шла о ссылках.

А они тут и при том, что "NFT-токен" это не что иное, как ссылка (по которой лежит картинка, которую "продали"). И многие из этих ссылок уже протухли.

NFT-токен это НЕ ссылка. Это уникальный слепок (хэш+цифровая подпись) с некоторого объекта.
Может конечно содержать в себе как дополнение еще и ссылку на объект, и чаще всего даже содержат, но это только как частный случай. Один из нескольких возможных. Или может вместо ссылки содержать непосредственно САМ объект (а не ссылку на него) непосредственно внутри(составную часть) NFT-токена, как другой частный случай. Обычно когда объект небольшой по объему.
Или не содержать вообще ничего из этого, как NFT на объекты материального мира, на которые URL на поставишь в принципе.

Это же очевидно. Он не Яндекс :-)

Если приводить аналогию, то это (список, который нашел фотограф) - "список прочитанного материала". В самой нейронке и продукте не должно быть работ фотографа. Вообще. Даже ссылок. Есть полученный опыт (коэффициенты). Так что, я не думаю, что можно сгенерировать изображение оч.близкое к исходному даже если стараться. А вот сам список ссылок - лишь библиография. Их хранят для указания источника обучения. Это частое требование лицензий типа Creative Commons и тд, плюс часть научных требований (для возможности повторить эксперемент).

Как вы сами указали ниже, речь про обучение, а не использование самих фото. Тут, наверное, может быть нюанс с цитированием - если где-то захардкодили какие-то куски "исходных изображений" (такое бывает во всяких фильтрах - как подставные фотки луны в сматрфонах). В этом вопросе эксперт вы. Прочитав книгу и сделав реферат/рецензию, я не нарушаю авторские права, если его опубликовал и даже продал. Но если там есть большие куски исходной книги как цитаты, то может и прилететь. Однако ничего такого в статье и претензиях фотографа не указано.

Так что, я не думаю, что можно сгенерировать изображение оч.близкое к исходному даже если стараться.

Если стараться, то, увы, можно. Уже неоднократно показывали это.

Быстрый поиск дал примеры с "цитированием". То есть не точная копия, но много из "оригинала". Когда мы говорим об известных вещах, то это неудивительно. Попросите знакомого нарисовать "Черный квадрат" и, скорее всего, любой нарисует близко к оригиналу. Дать запрос "Мона Лиза в стиле Леонардо Да Винчи " и ожидать получить что-то совершенно другое, было бы странным. Однако фотограф не показал "копию" своих работ от нейронки и жалуется совсем на другое.

Здесь близкая аналогия - геральдика: по описанию можно восстановить геральдически верный герб, который не будет визуально похож на "оригинал", но тем не менее по такому гербу будет сразу понятно, чей он.

Мы же здесь, вроде как за второе слово из аббревиатуры "ИИ" выступаем, ведь так? Злые дяди бизнюки (Stable Diffusion) привели в детский садик (LAION) картинки изучать. Интеллектушка "посмотрел" по ссылкам, "поучился", взял да и "нарисовал" свои творения под впечатлением от "увиденного" и "запрошенного". Дяди бизнюки стали их продавать, а злые авторы исходных картинок хотят заставить Интеллекушку свои картинки "развидеть". Как-то так? Что-то здесь похожее на пасту из тюбика и фарш из мясорубки.

Как-то так? Что-то здесь похожее на пасту из тюбика и фарш из мясорубки.

Это с человеком такой фокус не пройдет. А решит суд, что настройки продукта, созданные с использованием конкретных картинок более использовать нельзя - придётся продукт настроить заново с нуля, но уже без упомянутых картинок.

НЛО прилетело и опубликовало эту надпись здесь

Почему втихую? Совершенно в открытую выиграет компания Дисней и подобные ей по образу мыслей. Которые таким образом запретят рисовать руками и тренировать рисующие хоть что-то похожее на то, что в их интеллектуальной собственности есть. Т.е. приблизительно все.

А почему вы оцениваете ситуацию с точки зрения того, кто выиграет? Поскольку речь здесь о правовом вопросе, основной критерий - увеличивается или уменьшается соблюдение прав людей, которые вкладывают собственные усилия в творчество (фотографию или изобразительное искусство).

Позволю себе иллюстрацию. Например, в Испании есть закон, который ради "общественного блага" охраняет тех, кто без разрешения владельца вселяется в дома, где никто не живёт. Правда собственника при этом попираются, права халявщиков - охраняются. Мотивация при этом - тоже "а вам что, жалко" и "вы всё равно это жилье не используете". Впрочем, вопрос о том, на сколько демотивированы оказываются люди, желающие купить, например, курортную недвижимость (и принести местной экономике свои деньги), оказывается за бортом.

Потому что любые права — это не какие-то фундаментальные вещи, данные нам свыше, а результат общественных компромиссов. И хороши они ровно настолько, насколько работают на долгосрочные интересы всего общества в целом.
При этом запросто может сложиться ситуация, когда люди, ослеплённые сиюминутными выгодами, могут попросту не замечать, что дальнейшее следование тем же курсом в долгосрочной перспективе ведёт к проигрышу, который полностью перекрывает все эти краткосрочные выгоды.
Те же корпорации, если обязать их обучать нейронки только на лицензионно чистых датасетах, спокойно утрутся. Им не так уж сложно увеличить патентный отдел, чтоб собирать только картинки под свободными лицензиями, и купить со скидкой единомоментный доступ к нескольким крупным фотостокам.
Зато вот опенсорсные нейронки такая инициатива убьёт сразу, и придётся вам за нейронками ходить только и исключительно к крупным корпорациям на тех условиях, которые они вам выставят (как там например с доступом к ChatGPT из России? Всё ещё не очень?)

Вы делаете фундаментальную ошибку - идея о том, что права и свободы "даны свыше" (как в случае с концепцией god-given rights) или являются естественными и неотъемлемыми (в более современной интерпретации) - не просто существует, а является фундаментом для многих правовых систем.

В свою очередь, результатом общественных компромиссов являются законы, регламентирующие использование прав и свобод. И да, люди весьма часто поддерживают те или иные законы, не имея представления о том, какие же реальные последствия они принесут.

В ситуации с ML-системами, энтузиасты этой технологии очень любят апеллировать к неудержимости прогресса и прочим весьма расплывчатым категориям, забывая и игнорируя то, что они считают неважным (например, проблему эрозии права) и используя самую разную манипулятивную риторику для того, чтобы дискредитировать оппонентов (вместо опровержения их тезисов), выступающих всего-навсего за более трезвый взгляд, а не за "тотальные запреты".

Использование подобной риторики никогда не является признаком наличия надежных аргументов в пользу той или иной позиции, скорее - наоборот.

НЛО прилетело и опубликовало эту надпись здесь

> авторы исходных картинок хотят заставить Интеллекушку свои картинки "развидеть".

не "Интеллектушку", а "детский садик".

Как раз к Интеллектушке у него претензий нет - то ли уже успешно подоил их, то ли боится.

Литрес напоминает, который прославился выпиливая с Гугло-маркета и Эппл-маркета все читалки, в которых не умели качать из его магазин или умели качать с любых других источников.

Вообще, проблема в этой ситуации сводится к тому, какова возможная трактовка термина "использование". Потому что создание продукта, "поведение" которого определяется его "настройками", полученными из изображений, вполне можно, при определенных условиях, трактовать как "использование". Потому что этот продукт оперирует не фактической информацией, а имеет своей целью имитацию художественной составляющей изображений.

а не использование самих фото.

Хорошо. Докажите, что без его фоток сеть работала бы также, как сейчас. Переобучите сеть на основе ссылок, но чтоб по ссылкам фото не было.

Какая сеть? У него претензии НЕ к какой-то нейросети и даже НЕ к разработчикам подобных нейросетей.
А к каталогу ссылок на им же собственноручно размещенные в открытом доступе фотографии.

А за что столько минусов?

Фотограф предъявил претензии к бесплатному каталогу ссылок. Это как Яндекс, только без поиска.

Нет, там как у нас в мозгу - вам показали фотографию, и у вас что-то в мозгу изменилось, нейроны перестроились. И дальше вы можете эти знания использовать в жизни. Но сказать что у вас в голове теперь лежит эта фотография - нельзя.

Очень даже можно, вот представьте, вы никогда не видели горы, вас просят нарисовать эти самые горы, что вы нарисуете? Правильно ничего, т.к. вы понятия не имеете, что же это за горы такие.

А теперь покажем вам подборку фотографий гор, после этого попросим опять нарисовать горы, и тут вы уже сможете нарисовать те самые горы, причем они очень сильно будут похожи на те горы, что вы видели на фотографиях.

Так все же лежат ли в голове те самые фотографии?

Вы нарисуете горы, но не сделаете копию той фотографии, которую вам показали. Это практически невозможно, а что-то "очень похожее" объектом авторского права не является. Так-то горы все друг на друга похожи, и даже больше: точка с красивым обзором, как правило, известна, и что-ж теперь, нельзя оттуда сфотографировать, потому что нечто похожее уже сфотографировали и загрузили в сеть?

Ну так и пусть эта нейросеть идёт и смотри эти горы сама. Зачем она смотрит на чьи-то фотки?

А чего это вы вдруг решили запрещать?

Речь идет о запрете, а о бесплатном использовании результатов труда человека для извлечения прибыли.
Это примерно как устроится волонтером в общественную организацию, а потом выяснить, что она никакая не общественная, а коммерческая и кто-то получает вполне себе осязаемый доход от вашей бесплатной работы.
Давно вы где-то работали бесплатно?

Он предъявлял претензии как раз к некоммерческой организации, никакой прибыли из этого не извлекающей — все что они делают предоставляется бесплатно всем желающим (живет организация на энтузиазме участников и добровольных пожертвованиях/донатах/грантах идущих на покрытие необходимых расходов типа аренды серверов).

We are a non-profit organization with members from all over the world, aiming to make large-scale machine learning models, datasets and related code available to the general public.
OUR BELIEF

We believe that machine learning research and its applications have the potential to have huge positive impacts on our world and therefore should be democratized.

OUR PRINCIPAL GOALS

Releasing open datasets, code and machine learning models. We want to teach the basics of large-scale ML research and data management. By making models, datasets and code reusable without the need to train from scratch all the time, we want to promote an efficient use of energy and computing ressources to face the challenges of climate change.
FUNDING

Funded by donations and public research grants, our aim is to open all cornerstone results from such an important field as large-scale machine learning to all interested communities.

laion.ai/about

Да не вопрос. Но смотреть она может только на JPG файлы, полученные через камеру и записанные на носитель, ибо это генеративная сеть, а не робот общего назначения, способный прийти самостоятельно к горам. Считайте что инвалид. Но таки да, авторы модели могут ей нафоткать сами и скормить.


Вот только давайте догда вы при выборе курорта или страны для переезда будете не чужие фото/видео/обзоры нужного места смотреть и читать, а сами поедете смотреть своими глазами. Ибо зачем вы на чьи-то фотки интересущего объекта смотрите для получения информации? Свои сделайте.

Принципиальная разница здесь в том, что в первом случае фотографии используются для извлечения прибыли на постоянной основе, а во втором - для личного разового использования.
Ну вот поставьте себя на место фотографа - вы потратили деньги на обучение, оборудование, вы придумали идею для съемок, подобрали место, поехали туда, понесли затраты, потратили время, сделали съемки. Вы не против поделиться с обществом, чтобы оно видело ту красоту, которую видели вы, но это ваш хлеб. Если кто-то хочет извлекать прибыль из этого или посредством этого - наверно нормально ожидать получить какую-то оплату за свои опыт, знания и время. Правда?

А представьте, что я посмотрел на его прекрасные фотки, почерпнул оттуда идеи для себя и сам теперь делаю подобные, отнимая у него хлеб. Мне роялти платить или фотоаппарат выкинуть? Тогда тот, кто придумал фотографировать человека в прыжке с подогнутыми ногами, был бы богаче Маска

Если нейросети что-то нарвится - пусть идет и фотографирует в том же стиле. Это ей никто не запрещает.
А если чуть более серьезно, то сама нейросеть ничего создавать не может. Она может мимикрировать под какую-то генерализованную версию изображений, которую ей скормили во время обучения. Иными словами она взяла 100 тысяч или миллионов существующих фотографий, как-то их усреднила и при последующей генерации использует какие-то паттерны из тех фотографий, которые она видела.
Здесь поднимается вопрос не про богатство как у Маска. А про то, что многие AI старта (тот же chat gpt) использует открытые источники, которые были открыты для личного использования.
Ну например, у вас есть земельный участок. Отстутвие забора дает право прохода через него.
Вас не было год, вы возращаетесь и видите, что из соседнего карьера проложили через него дорогу и каждый день десятками ездят грузовики. Почему через ваш участок? потому что другая дорогая будет на 3 км длиннее.
Пример не совсем из виртуальной (IT) сферы, но простота копирования и распростарения данных почему-то многими воспринимается что создание этой информации было бесплатным. Увы, нет

Вас не было год, вы возращаетесь и видите, что из соседнего карьера проложили через него дорогу и каждый день десятками ездят грузовики.

возможно это будет для вас сюрпризом, но
https://cyberleninka.ru/article/n/pravo-neobhodimoy-dorogi-cherez-sosedniy-uchastok-ogranichenie-prava-sobstvennosti-v-interesah-soseda-ili-servitut/viewer

Но есть нюанс:

- если кто-кто скупил всю землю вокруг карьера, принадлежащего другому лицу, то владелец карьера может получить сервитут на дорогу к своему карьеру.
- однако, если место для дороги осталось, просто кто-то хочет сэкономить 3км на строительстве оной - то это "уже другое".

Применительно к обучению нейросети опять же "несколько другая ситуация" - т.к. "обучение нейросети" является новым видом использования объектов авторского права и, соответственно, новый "конфликт интересов": одни хотят приравнять это к ранее существовавшим, другие хотят сказать, что "это уже другое".

Институт сервитута мне знаком. В моем примере он не применим. В нем идёт речь про получение дохода путем экономии за, по сути, чужой счёт.

Ровно то, о чем эта статья

Вы неверно понимаете, как работает нейронная сеть при генерации картинок. Она фигачит случайный шум, из которого детектор выбирает хоть что-то похожее на нужный объект. В ней больше собственного творчества, чем у большинства художников и темболее фотографов.

Именно поэтому бывают артифакты по три руки с 7 пальцами.

>В ней больше собственного творчества

Согласно вашему же описанию творчества - в результате работы нейросети ни капли творчества, а сугубо производство.

а описание творчества - это "то что сделано человеком"

или какие-то более формальные критерии ?

Да, более формальные. За ними можете пройти, например, на википедию - или на более тематические ресурсы. Как минимум, в эти критерии входит влияние художника на произведение, ЕМНИП. По описанию комментатора выше, результат работы нейронной сети - коллаж с развесовками, задаваемыми авторами сети. Собственного влияния сети на результат нет.

Описание творчества прямо задано в решении Верховного суда РФ, и вот каким образом:

Творческий характер создания произведения не зависит от того, создано произведение автором собственноручно или с использованием технических средств. Вместе с тем результаты, созданные с помощью технических средств в отсутствие творческого характера деятельности человека (например, фото- и видеосъемка работающей в автоматическом режиме камерой видеонаблюдения, применяемой для фиксации административных правонарушений), объектами авторского права не являются.

Как видите, если есть автор — значит, есть творчество. (Постановление Пленума Верховного Суда Российской Федерации от 23 апреля 2019 года.)

Я достаточно неплохо понимаю, как работают нейросети в целом, хотя с генеративными дела не имел. Но не думаю что там что-то принципиально другое.
Нейросети извлекают различные паттерны, которые, как я подозреваю, используются уже в процессе генерации. И без исходных изображения паттерны не могут быть получены. Если взять 100 тысяч чужих изображения и как-то их усреднить - можно ли утверждать что создали что-то новое? или все же каждый раз, когда вы обрабатывали каждую их этих 100 тысяч фотографий, преобразовывая ее в некую дельту и сохраняя эту дельту в своей модели, вы 100 тысяч (помноженное на количество эпох) раз нарушили право авторское право?

Ну и что, что понесли затраты? Это так не работает. После затрат надо еще результаты кому-то продать. А если вы выставили их бесплатно в сеть - то с кого вы, собственно, будете требовать деньги?

А если вы выставили их бесплатно в сеть - то с кого вы, собственно, будете требовать деньги?

С тех, кто их использует ;)

От того, что где-то что-то доступно бесплатно для просмотра - это еще не значит, что оно находится в общественном достоянии и т.о. с ним можно делать (почти) что угодно.

А вот можно ли использовать их для обучения нейросетей - вопрос достаточно новый и явно не урегулированный законодательно.

Нейросеть эти фотографии просто просмотрела и ничего с ними не делала.

Нейросеть - не человек, а потому с т.з. действующего законодательства сама использовать произведения не может в принципе, она не правосубъектна. Их использует лицо (физическое, то есть человек, или юридическое, за которым, впрочем, тоже скрывается человек), владеющее и/или пользующееся нейросетью.

Верно, что лицо, используя обученную нейросеть, не использует чужие произведения.

Но именно некое лицо использует произведения для обучения нейросети. И вот к этому использованию вопросы уже вполне уместны и одновременно не урегулированы ничем, кроме договоров.

Хорошо, попробую поставить. Итак, я посвятил значительную часть своей жизни обучению, чтобы написать этот комментарий, и я рад поделиться им с миром, чтобы передать часть своего опыта и позволить другим оценить всю красоту и мощь моего воображения. Однако, я хотел бы уточнить, можно ли ожидать от вас вознаграждения, соответствующего моим усилиям, которые я затратил на обучение и совершенствование своих навыков.

Я ничего не писал про авторские права, а только про хранится или нет)
Естественно производное произведение не является нарушением авторского права)

Вы нарисуете горы, но не сделаете копию той фотографии, которую вам показали. Это практически невозможно, а что-то "очень похожее" объектом авторского права не является.

Если я буду продавать майки с Микки-Маусом, то Дисней обвинит меня в нарушении авторских прав, даже если персонажа на майке я нарисую своей собственной рукой, и он не будет полностью совпадать ни с одним прежде существовавшим рисунком.

Хм. Допустим меня кто-то пропросил запомнить фразу "Мужик перемахнул через ограду". А через какое-то время, меня спросили - помню ли я фразу, и я сказал - Конечно! "Мужчина перепрыгнул через забор". Что хранится у меня в голове при этом? Можно ли сказать что у меня лежит оригинальное предложение?

Механизм памяти намного менее прямолинеен чем кажется. Когда вы что-то вспоминаете, ваш мозг не обращается к какому-то участку мозга и не проигрывает что там записано. Скорее когда вы пытаетесь что-то вспомнить ваш мозг очень приблизительно генерирует то, что могло произойти и скармливает вам и вы уверены что вы именно это и видели. И вот это воспроизведение зависит от кучи причин. От вашего текущего состояния - если вы счастливы сейчас, то вы можете вспоминать вещи в более позитивном ключе. И наоборот.

Или например вы можете быть свидетелем какого события (были на концерте роллинг стоунз), а потом просто узнать какой-то факт об этом событии (Королева Англии была на этом концерте) и ваш мозг может инкорпорировать этот факт в ваше воспоминание (Я был на концерте роллингов и видел там Королеву Англии!)

Более того - сам факт вот этой вот генерации, работает как learning reinforcement . Т.е. если вы были свидетелем какого-то события, но какие-то детали вы не помните, ( был он в красной или желтой рубашке? Хмм, не помню. Вроде в красной.) И вот если вас попросить рассказать об этом раз, другой, третий - через какое-то время вы будете точно помнить что он был в красной рубашке и даже смутно помнить узор.

Собственно мой посыл в том что если я прожил всю жизнь в тундре и не видел гор, и вы мне покажете фото Фудзиямы, я могу быть уверен что я прекрасно ее запомнил. А в реальности мой мозг может помнить только - "Штука похожая на юрту"

Скорее когда вы пытаетесь что-то вспомнить ваш мозг очень приблизительно генерирует то, что могло произойти и скармливает вам и вы уверены что вы именно это и видели

Всё уже украдено до Вас.

Тут отдельный вопрос - а почему я должен смотреть именно вашу подборку фотографий гор? Вы сами не хотите заплатить за это эксклюзивное право показывать именно ваши фотографии?

Я ведь просто хотел посмотреть фотографии гор. Без каких-то ограничений. Если это не просто фото, а какая-то услуга с ограничениями - наверное, нужно сначала получить согласие клиента на получение этой услуги. Иначе просто все, кто увидел этот коммент, заплатите мне деньги за его просмотр. И отдельно, гугл за то, что закешировал его.
В данном случае, имхо, применимы общественные лицензии, вроде gpl. Если фотографии были выпущены под этими лицензиями - это одно. Если автор хочет постфактум получить бабло за то, что его фото кто-то использовал - имхо, нужно было заранее накладывть ограничение на использование этого фото.

В данном случае, речь не только о получении информации о том, как горы выглядят вообще, а ещё и об имитации художественной манеры (сразу множества) фотографов или художников, для чего продукт и настраивался (обучался) на реальных изображениях.

Это как различные варианты написания кода, когда вы прочли множество статей на хабре, а потом пишите за деньги уже код со своим стилем и идеями, но безусловно базируетесь на полученных ранее данных из открытых источников. Надо бы вам всему сообществу хабра денег заплатить и побольше.

Это плохая аналогия, потому что, во-первых, стиль написания кода выявить - сложнее, чем в визуальном искусстве. Во-вторых, в программировании важен функционал кода, а не имитация чьей-то манеры. В-третьих, алгоритмы вполне поддаются патентованию. В-четвертых, нейросеть - не человек, это продукт с настройками.

В который раз повторюсь, что аналогии ничего не доказывают, а даже для иллюстрации их следует хоть пытаться сделать корректными.

о-вторых, в программировании важен функционал кода, а не имитация чьей-то манеры.

Именно по-этому наверно вместо нечитаемого (но обладающего нужным функционалом) спагетти-кода примудано ООП, паттерны проектирования и прочие веселые шаблоны, по сути являющиеся иммитацией конкретного стиля, кем-то когда-то придумаенного.


стиль написания кода выявить — сложнее, чем в визуальном искусстве.

Ничуть. Лингивстический анализ для текстовой информации имеется, и характерные для человека вещи выявить может и в коде.


В-четвертых, нейросеть — не человек, это продукт с настройками.

Мозг человека — нейросеть с настройками. Модели нейросети — не продукт с настройками. Есть алгоритм их обучения и их применения — это код, с настройками. Но сами модели — черный ящик, и что творится внутри него понятно весьма смутно (хоть и понятнее мозга, ибо тут хотя бы архитектуру мы сами проектируем)

То, что слово "стиль" применяется и к художественным произведениям, и к программированию, не делает эти два понятия одним и тем же. Художественный стиль в написании кода отсутствует, кроме отдельных весьма специфических ситуаций. Вы же притягиваете снова аналогию за уши.

Мозг человека может быть сколько угодно нейросетью с настройками, только в существующей правовой системе человек и продукт занимают очень разные позиции. Если вам нравится считать, что между ними нет разницы - вам никто не запрещает, но поскольку есть множество ситуаций, где закон обращается с человеком и продуктом по-разному (например, у человека есть права, а у продукта - нет), вам придется с этим мириться.

Так в данном случае закон-то как раз не на стороне фотографа… Вот только его защитники апеллируют как раз не к закону, а к морали и справедливости, пытаясь доказать, что вынесенное законным судом решение несправедливо и должно быть пересмотрено.

в существующей правовой системе человек и продукт занимают очень разные позиции.

Fine. Веса нейронной сети — продукт. Вот только этот продукт — это не живое создание, тут нет свободы воли. Веса сами ничего не плагиатят, не генерируют и не рисуют. И авторы весов тоже.
И даже нейросеть (код, ПО), для которой эти веса лишь составной компонент, тоже ничего не генерирует, не ресует и не нарушает.


Генерируют люди. Сеть лишь инструмент. Как люди (якобы) делают плагиат чужих работ с использованием иснтрумента "Stable Diffusion", так могут делать и с помощью инструмента "Photoshop" и даже с помощью связки инструментов "Windows" + "Chrome".


Вы конечно можете сказать что авторы SD что-то нарушают когда позволяют модели смотреть на картинки (выложенные для свободного простмотра без органичений по чисто белковым формам интеллекта)…
НО! Вот вам вопрос. Если на картинку буду смотреть я (человек), а потом под впечатлением от картинки менять руками веса в модели (модель картинку не будет видеть — я введу коэффициенты исключительно руководствуясь своими белковыми впечатлениями от просмотра) — будет ли нарушение? Я ж просто посмотрел и "вдохновился", а потом пошел творить что-то новое, как и другие художники. А если вместо меня это сделает 1.5 млрд китайцев и столько же индусов (ну чтобы скорость правки коэффициентов в весах осмысленной сделать немного) — будут ли нарушения? И какие, если это просто живые люди пришли смотреть на картинку, выложенную для живых людей, а потом на основе собственного жизненного опыта коэффициенты весов правят?


P.S. А ведь такой проект даже был, где у GAN'а в качестве дискриминатора выступали люди и онлайн меню оценки прикручено было. И вполне ничего так NSFW пиксельарт-дама вырисовывалась...

Я ведь просто хотел посмотреть фотографии гор. 

Так смотрите. Никто вам это не запрещает. Но ваша нейросеть - просто инструмент для зарабатывания бабок. Не наделяйте её человеческим. Не наделяйте её человеческими правами. Бабки просто отдайте за использование чужого "труда".

Никого это сейчас не интересует и ящик пандоры открыт. Но я не соглашусь с Вашей позиции. Представим есть дизайнер, он посмотрел однажды, мельком Ваши и не только фотографии гор в интернете на пиратском сайте, и в для очередного заказчика нарисовал горы. Интересен юридический момент, не уверен что были похожие прецеденты.

Но ваша нейросеть — просто инструмент для зарабатывания бабок.
Бабки просто отдайте за использование чужого "труда".

Коммерческий художник, обучившийся на трудах и работах других художников и фотографов — просто инструмент для зарабатывания бабок. Пусть тоже отдаст бабки всем, чьими работами он вдохновлялся при обучении, чьи работы использовал как референсы, на чьих персонажей фан-арты на патреоне рисовал и т.д и т.п. Ибо этого художника от нейронки радикально отличает только белковый носитель вместо кремниевого.


Разрешить рисовать только слепым или запертым в одиночной камере с рождения и чужих работ точно не видевшим. Чтобы точно на чужом не обучались и чужой труд в своих работах не использовали.

Автор это ограничение накладывает сейчас. Просит перестать показывать фотки следующим клиентам. А ему в ответ - мы будем показывать ваши фотки кому хотим, ведь вы их выложили в интернет. Наверное, кроме согласия клиента на представление услуги, нужно ещё и согласие автора взять, как вы считаете?

Его фотки нейронка ни кому не показывает. Агригатор ссылок, только адрес бесплатно раздаёт, где можно посмотреть на общедоступные фотографии.

Кто что в какой момент нарушил?

Клиент - это компания, которая обучает нейросеть. Автор не хочет, что бы обучающие нейросеть использовали его фотографии. По-моему, простое требование. В ответ ему говорят - хотим и используем, а кто что нарушил?

Кто конкретно и в какой момент нарушил, пусть решает суд. Может вообще через когда-нибудь отменят копирайт, что бы любые фотки мог использовать кто угодно. Пострадают авторы, правда, зато разбираться легко.

Но само его требование понятно - не используйте мои фотки для нейросетей. Не прикрывайтесь "а я только то, а это не я, а он" и т.п. Просто не используйте, т.к. они мои. По-моему, требование простое и понятное.

Ну, так фотограф решил провернуть фарш назад, внезапно спохватился запрещать.

Почему вы так решили? Вы думаете, если я выложил фото, это автоматически даёт пожизненное разрешение всем его использовать, которое нельзя отозвать?

Обратите внимание, он не просил "разучить нейросети". Он просил убрать из обучающего набора. То есть попросил не использовать в будущем (!). Пользуясь вашей аналогией, он попросил перестать делать фарш.

А её в обучающем наборе никто не держит. Нейронка сходила по адресу, посмотрела и дальше пошла, даже к себе не сохранила.

А фотограф претензии вообще к каталогу ссылок выдвинул.

И что откуда удалять? Из каталога ссылок?

Нейронка не "ходит по адресу". Я понимаю, что вы крайне далеки от обучения сетей, но если кратко, обучающий набор всегда лежит локально.

Но даже если вообразить ваш невозможный вариант, что за каждой картинкой обучающий код идёт по http/https, то в чем непонятность требования не ходить за его картинками? Ладно бы вы сказали "меня не волнует, хочу и использую, мне всё равно, кто рисовал эти картинки". Но нет, вы упираете на то, что после использования их не сохраняют. Но это, по большому счету, не так важно. Просьба была именно не использовать.

И что откуда удалять? Из каталога ссылок?

Этот каталог нередактируемый, что ли? Из него удалить нельзя? В чем суть вашего вопроса?

Просьба пришла после использования и удаления.

Это как с персональными данными, их можно обрабатывать, а хранить очень жёсткие требования. И требовать удалить результаты обработки не получится.

Просьба пришла после использования

Это было последнее использование? Больше использовать никогда не будут? Тогда вы правы, автор картинок опоздал.

Либо, более вероятно, вы зациклились на прошлом, а просят не использовать в будущем. И вы отказываетесь это принимать.

Про каталог, существует некоммерческий каталог общедоступных ссылок, с чего вдруг владелец каталога должен что-то оттуда удалять? Что он нарушил?

то в чем непонятность требования не ходить за его картинками?

В том что он требует "не ходить" не у Stability.AI/OpenAI/Google которые ходят и смотрят, а у каталога ссылок, который никуда ни за чем не ходит и ничего не учит.

Возможный вариант — непонятность в том, что собственно где запрос пароля (или вообще 403 сразу) при обращении по этому адресу? Судя по описанию LAION'а — это сразу решит проблему (не решит с уже скачанным да — но это не требует)

Нет, не лежат. Я посмотрел 800 снимков гор, начал рисовать. Какой из снимков я повторяю? Я рисую свои.
Аналогично - я переписываю книгу когда пишу сочинение, если в тексте сочинения попадаются такие же буквы как в книге? Именно не диктант, пересказ или изложение, а сочинение.
Пользуясь Вашей логикой можно обвинить Толстого в плагиате Аксакова, а что слова одинаковые, буквы тоже.

Горы - слишком распространены. А вот представим себе что-то более специфичное, Красную Площадь, например, с Храмом Васи́лия Блаже́нного, уже такого в датасете будет не очень много и по такому же специфичному промпту, будут выдавать компиляции из этого небольшого числа снимков - больше данные взять просто неоткуда. Но можно предположить, что фото для датасета взяты из Википедии, куда отдают с соответствующей лицензией снимки. Но данный фотограф, я так понял, не давал такого права. А ещё интереснее что думают люди, чьи лица оказались в датасете и потом по узкоспецифичным запросам могу появляться возможно в достаточно узнаваемом виде (из-за ограниченного числа снимков в датасете по такому запрсоу) где угодно, включая порно. Я замечал, что по узким запросам выдаются достаточно похожие лица. Вполне возможно, что они похожи именно на оригинал из датасета.

Или вот ещё пример специфичного контента - песчаный червь из "Дюны" по запросам "Shai Hulud" или "sandworm". В ограниченном срезе датасета видно, что таких изображений совсем немного и они ещё и повторяются многократно. Художника определить очень легко. Если они не давали согласия на использование изображений для обучения нейросетей, то их возмущение можно понять. Кто-то будет зарабатывать деньги на их работах по сути.

Или вот ещё пример специфичного контента — песчаный червь из «Дюны» по запросам «Shai Hulud» или «sandworm». В ограниченном срезе датасета видно, что таких изображений совсем немного и они ещё и повторяются многократно. Художника определить очень легко. Если они не давали согласия на использование изображений для обучения нейросетей, то их возмущение можно понять. Кто-то будет зарабатывать деньги на их работах по сути.
Плохой пример. Планету Земля тоже особо оригинально не нарисуешь. Что теперь, все должны денег первому нарисовавшему?
Это как широко известная в узких кругах жалоба художников на то, что по запросу «bloodborne» неиросеть рисует мужика с двумя топорами, вид сзади.
НУ ТАК ПОТОМУ ЧТО ВЫ САМИ ЭТО БЕЗ КОНЦА И РИСУЕТЕ!

При чём тут Земля? Для неё полно спутниковых фото и разных изображений. Изображение выдуманных существ является творческим продуктом автора и его использование в коммерческих целях без согласия автора явно нарушает законодательство.

А при чем здесь спутниковые фото? Мы же про рисунки. Вроде.
Изображение выдуманных существ является творческим продуктом автора
Некоторые вещи нельзя изобразить не-стандартно. Ну то есть да, червя можно превратить в гусеницу, и лишить зубов, но резонный вопрос: а при чем тут Shai Hulud?
Изображение выдуманных существ является творческим продуктом автора

Запретить всех кто рисует фан-арт. И даже тех кто рисует исключительно по текстовому описанию — ведь сущетсво то принадлежит автору. А художники с фан-артом на этом зарабатывают популярность и внимание публики, которое затем монетизируют. Недопустимо!

Продажа фанарта - нелегальна!

Потому и нейросети не должны брать деньги.

Согласен. Однако SD открыта и бесплатна, MJ формально продает гпу-часы железа (но учитывая недоступность модели - можно считать что продает всё же нейронку) и лишь ClosedAI максимально коммерческой была с самого начала и в явном виде продает конкретно генерации, но почему-то к ним претензий было меньше всего :)

НЛО прилетело и опубликовало эту надпись здесь

"Фотограф" сделал кадр и опубликовал его. Некто "Программист" официально получил к этому кадру доступ (купил, или в виде превью или как-то ещё - не так важно, важно что ничего не нарушая) и вычислил из его содержимого, например, хэш-сумму, далее используя это число по своему усмотрению. Как мне кажется, тут "программист" ничего не должен "фотографу".

Аналогия не совсем корректная, но очень близкая по духу алгоритмам настройки нейросетей.

Вот именно. Технически Stable Diffusion — это всего лишь мощный фильтр-шумоподавитель. Суть идеи в том, что исходные изображения зашумляются в несколько этапов:
image
после чего идёт подбор коэффициентов громадного фильтра так, чтобы он каждый раз снижал зашумление на одну ступеньку (давил часть шума).
Тогда, скормив такому настроенному фильтру чистый гауссов шум вместо картинки, примерно за 50 итераций шумоподавления на выходе внезапно получаем рандомную картинку — это собственно и есть процесс генерации.
Причём процесс настройки такого супер-фильтра напоминает детскую игру "горячо-холодно": меняем коэффициенты и смотрим, стал результат лучше или хуже. Если лучше — меняем ещё дальше в ту же сторону. Хуже — пробуем менять по-другому. Настройка идёт автоматически с огромной скоростью (триллионы итераций).

Ну так технически JPG-файл - тоже набор математических операций над исходным растром - дискретное фурье-преобразование, амплитуды там, вот-это-все. Однако авторское право на них вполне себе распространяется. Тут вопрос реально к регулятору - где и как в общем случае провести границу fair usage-a.

На мой вкус критерий прост - если можно каким-то промптом заставить нейросеть выдать картинку, неотличимую от оригинала для большинства людей-зрителей - значит копирайтненько. Если нельзя - ну сорян, непрокатило.

Так эти преобразованные файлы в нейронку не включаются ни в каком виде — они используются только для её настройки.
Если вы возьмёте с полсотни фотографий и откалибруете по ним ваш монитор, чтобы на нём картинки отображались с наилучшей цветопередачей, разве вы должны после этого платить каждому автору каждой фотографии? Даже если потом продаёте этот калибровочный профиль.

Эхем, нейроны сетки, если ее обучить неправильно - ну, например, кормить только одной картинкой сами по себе не будут отображать картинку. Но и нарисовать кроме нее ничего не смогут. И да, если в копирайт вообще верить - это таки его нарушение. IMHO, конечно. И если вам показывать с детства одну и ту же картинку, и вы ее по памяти один-в-один воспроизведете - это таки опять же нарушение, если судить по, скажем так, духу законодательства об авторском праве, с буквой могут быть разночтения и чудеса в разных юрисдикциях.

Так что (imho, опять же) - или крестик или трусы - если признавать авторское право в принципе - где-то проводить границу надо. И граница вида "применил какую-то математику - значит уже не копирайт" - сомнительна. В отличие от границы вида "применил необратимую математику", которая таки кажется разумной.

Или, как вариант, можно вообще отказаться от авторского права как концепции и не забивать этим всем себе голову вовсе.

Эхем, нейроны сетки, если ее обучить неправильно — ну, например, кормить только одной картинкой сами по себе не будут отображать картинку. Но и нарисовать кроме нее ничего не смогут.

На самом деле не совсем так — современные GAN'ы, обученные с нуля на одной-единственной картинке, очень даже неплохо её творчески переосмысливают (хотя, понятно, придумать какие-то совершенно новые объекты, отсутствующие в оригинале, не могут).


Пример

Если вас каким-то промтом под дулом пистолета можно заставить нарисовать картинку, похожую на копирайтную. То всё, копирайтенько? 🙂

Если на Photoshop подать нужное последовательность данных, то он может выдать картинку неотличимую от копирайтной. Например файл загрузить

Под дулом пистолета - это другой кодекс, уголовный - по нему ответит тот кто с пистолетом :)

Даже без дула пистолета если вы только из промта руками восстановите изображение (сделаете копию картины или игры), копирайт не будет работать. Clean-room design эта идея обычно называется. Проблема в том, что нужно сохранить убедительные доказательства для суда, и что в случае нейронок этими доказательствами будут алгоритмы и веса, которые никакому суду показывать никто точно не собирается.

P.S. Если в фотошопе рисовать копирайтными цветами, он их [заменит на чёрный]
(https://hardwaresfera.com/en/noticias/software/colores-pantone-photoshop/).

если можно каким-то промптом

Вы напишете программу, которая берёт файл, удаляет из него каждый второй байт и сохраняет оставшееся в новый файл. Я беру чужую картинку в JPG, удваиваю каждый байт и сохраняю в файл. Открываться он не будет. Мы берём этот файл, скармливаем в вашу программу, получаем на выходе чужую картинку! Получается, ваша программа нарушает права?

В случае нейросети, алгоритм гораздо сложнее, чем удалять каждый второй байт - но суть не меняется.

Нет. Нейросеть вообще никак не обрабатывает и не запоминает изображения, они служат для её настройки.

это всего лишь мощный фильтр-шумоподавитель

Напомнило

— Как вы делаете корабли в бутылках?
— Берём бутылку. Насыпаем в неё щепки, опилки, нитки, наливаем клей и трясём. Обычно получается всякая фигня, но иногда — корабли.

Получается,что я увидев фото среди гугл картинок и позже воспроизведя часть своих воспоминаний в цифровом формате с фото, должен роялти некому фотографу, за то что увидел фото?

Вам привет от композиторов-песенников. Выкатывают друг другу иски за три ноты. На эту тему игра есть "угадай мелодию".

Да, сам недавно на подобную новость натыкался и был немного удивлен, поскольку песни совсем, как по мне, непохожи.

У тысяч бездарностей внезапно появился сильный конкурент и они теперь стараются его задавить любой ценой, натягивая копирастные законы на Глобус и бесятся от бессилия 😁

Я так понимаю автор - палка палка огуречик уже вытирает слезы хрустящими купюрами?

А если вы ещё и деньги получайте за свое творчество, то вы должны заплатить каждому в мире автору любого материала с которым когда либо ознакомились. Забавная логика тут у многих )

обучение это получение коэффициентов, вытащить их из миллиардов цифр эти миллиардные доли процентов - задача скорее невозможная чем возможная.

Если я возьму чужую фотографию, помещу её в редактор и велю сжать до размера 2*2 пикселя, я получу 4 квадратика забавных цветов. Вопрос: сколько прав автор оригинальной фотографии имеет на эти 4 квадратика?

Это будет производной работой, нужно получить согласие правообладателя. Если бы цвета этих квадратиков вы бы придумали сами, без обработки исходной чужой фотографии, то это было бы полностью вашими квадратиками - даже если цвета случайно полностью совпадут.

В таком случае подавляющее большинство современных художников является злостными нарушителями авторских прав. Потому что они вовсю пользуются рефами, а то и "пипеткой" орудуют, нагло извлекая десяток-другой пикселей рефа, чтобы добавить их цвета в составляемую палитру.

Обученная на фотографиях нейросеть - это то же самое, как реальный художник учился бы, смотря на работу этого мастера. Почему же он не бегает за всеми просмотревшими фото его работ, вдруг они вдохновились и что-то на основе нарисовали? Просто инструмент для отслеживания обученных нейросетей у него есть, а для поиска смотревших картинки нет.

Очевидно, что если появится человек мастер-плагиатор, которому достаточно посмотреть на фотографии, чтобы делать подобное - то такому мастеру не будут показывать фотографии. А задним числом будут обижаться на того, кто таки показал мастеру фото.

ВСЕ люди без исключения именно так и обучаются. Повторять части известных работ - это вообще часть обучающего процесса во многих художественных школах.

Да, но продавать подобные повторения равно как и выдавать их за свои работы запрещено, это плагиат.

А 2*2 = 4.
Только какое отношение это имеет к данному обсуждению?
Сеть обвиняют не в том, что она выдает чужие картинки за свои. Её обвиняют в том, что она учится рисовать на чужих картинках.

Сеть обвиняют именно в том что она может повторять части известных работ в своих произведениях. Вы верно заметили что это нормально для обучения, я возразил что использовать то что получилось от своего имени нельзя.

В более широком контексте большинство художников конечно так или иначе опираются на работы предшественников. Но они так же вкладывают в творчество что-то свое. Если мы убираем этот "самостоятельный" компонент то получаем художника который копирует картину известного художника сидя перед ней и стараясь убрать все отличия или фотографа который фотографирует картину и объявляет полученное фото уже своим собственным. Оба варианта как нетрудно заметить порицаются а второй просто запрещен. Я считаю вполне оправданным проведение параллелей между созданием "своей фотографии" и "картины нарисованной нейросетью": в обоих случаях использование технического приспособления сводит свой собственный вклад в создание произведения к минимуму.

Ну так вы просто не понимаете как работают нейросети. Также как и те, кто эти иски подает.

Прекрасно понимаю, а вам бы не мешало свои утверждения аргументировать. Не так давно было исследование на котором нейросетку сумели заставить воспроизвести практически дословно ряд изображений использовавшихся при обучении. Разумеется обычно это не так заметно, но принцип работы нейросети состоит именно в запоминании и усреднении фрагментов изображений. Хотя в получившейся "смеси" исходные данные для человека уже неразличимы, они там все равно есть.

Человеческого художника при известном желании можно заставить так же практически воспроизвести те изображения, на которых он обучался. Тут вопрос про 'вкладывают в творчество что-то свое'. Ну пускай у сетки не творчество, это без разницы. Но вкладывает она таки порядком много. Особенно если используемый генератор случайных чисел - аппаратный и не предсказуемый.

Тут по сути вопрос чем считать нейросеть - автором или изощренным техническим приспособлением. Если приравнять сетку к авторам то да, аргументы про обучение имеют смысл. Но на мой взгляд нейросетка это все-таки техническое приспособление. Сенсор в фотоаппарате тоже много шума в изображение фотографируемой картины вносит но сути происходящего это не меняет.

Сеть обвиняют именно в том что она может повторять части известных работ в своих произведениях.

Может — не значит делает. Иначе будет как анекдоте про "за изнасилование тоже сажайте — ведь аппарато то имеется".


Человек, насмотревшись чужих работ — тоже может повторять их части в своих произведениях. Будем штрафовать и осуждать его за принципиальную возможность?


Более того — сама модель ничего этого не может, она не живая. Могут люди, если умышленно захотят сделать плагиат. И вот тех, кто с помощью SD/MJ/Dalle воспроизводит чужие работы, и надо осуждать. А не ПО, через которое они это делают. Иначе тогда и Adobe надо судить за то, что они не блокируют возможность рисовать другими людьми плагат через ФШ. Пусть остлеживают и заменяют такие картины на черный квадрат при сохраненнии.


Но они так же вкладывают в творчество что-то свое. Если мы убираем этот "самостоятельный" компонент то получаем художника который копирует картину известного художника сидя перед ней и стараясь убрать все отличия

Я вам готов дать денег, если вы возьмете любую ванильную модель SD, опишите ей любую из имеющихся в обучающей выборке картин и сможете через генерацию добиться результата, который любым актуальным софтом для поиска дубликатов среди картинок покажет хотя бы 90% сходство (99% даже не прошу). В лучшем случае вы получите схожую цветовую палитру, подобие мазков и частично идею/атмосферу композиции. Т.е подобие стиля. Но кокретно сам желаемый объект или композиция будут отличаться от любой из имеющихся работ. Ибо нейросеть таки тоже вносит своё (и не только артефакты). Более того — у разных сеток это "своё" разное, так что Dall-e вы не спутаете с MJ, а MJ до v5 практически не реально было спутать с SD (да и вообще с чем либо — она сразу палилась).


У меня инстаграмм с артами, которые на ~40% руками доделаны/перерисованы после SD. И знали бы вы какая боль заставить её генерировать персонажей так, чтобы в первые 2 секунды взгляда не становилось ясно что это SD по позе/ракурсу/положению в кадре/свету и еще 5-7 признакам однозначно показывающим что это именно SD. Даже с LoRA'ми, призванными мимикрировать под конкретных художников и стили.

Я вам готов дать денег, если вы возьмете любую ванильную модель SD, опишите ей любую из имеющихся в обучающей выборке картин и сможете через генерацию добиться результата, который любым актуальным софтом для поиска дубликатов среди картинок покажет хотя бы 90% сходство (99% даже не прошу)

Не надо мне давать денег. Такой эксперимент успешно провели без меня:
https://arstechnica.com/information-technology/2023/02/researchers-extract-training-images-from-stable-diffusion-but-its-difficult/
Все 99% совпадения там где обучающая выборка по каким-то причинам была относительно куцей. Разумеется как правило модель вполне успешно смешает множество изображений так что индивидуальные исходники уже не будут различимы, но это все равно будет смешивание запомненных фрагментов исходников.


Более того — сама модель ничего этого не может, она не живая. Могут люди, если умышленно захотят сделать плагиат. И вот тех, кто с помощью SD/MJ/Dalle воспроизводит чужие работы, и надо осуждать.

Согласен что нарушителем является тот кто использует сеть. Но те кто дает им в руки инструмент на мой взгляд тоже не правы. Легко провести аналогию с "кряками" для программ: нарушителем является тот кто использует кряк, но и создатель кряков тоже неправ, особенно когда он создает это вопреки воле автора исходной программы.


Человек, насмотревшись чужих работ — тоже может повторять их части в своих произведениях. Будем штрафовать и осуждать его за принципиальную возможность?

Я уже писал в комментариях: на мой взгляд определяющим является то сколько человек вносит "своего" в творчество. Одно дело человек насмотревшийся чужих работ, другое — человек который перерисовывает к себе чужую картину, третье — человек который фотографирует чужую картину. Объем собственного вклада падает от первого примера к третьему и вместе с этим падает допустимость подобного использования чужой работы. Там где "вклад" сводится к вводу пары слов промта я вижу явное сходство с фотографированием картины. Пусть даже картин в данном случае сотни а фотоаппарат их тщательно перемешивает.

НЛО прилетело и опубликовало эту надпись здесь

То что нейросетка комбинирующая копирайтные изображения сама не нарушает копирайт - это ваше оценочное суждение. Не надо его выдавать за непреложную истину и писать исходя из нее комментарии с упоминанием говна.

НЛО прилетело и опубликовало эту надпись здесь

Ну если копирайтные картинки не критичны для обучения сетки ибо там те же самые пиксели что и в не копирайтных, то нафига обучать сетку на копирайтных изображениях в которых с вашей точки зрения нет ничего что заслуживало бы заимствования? Обучайте ее на своих собственных и будет вам счастье и полное отсутствие претензий от авторов. Пиксели-то везде одни и те же. А если вам своих пикселей для обучения не хватает и нужно больше то я вам генератор шума могу подкинуть, там данных не на один десяток StableDiffusion насоздавать можно.

НЛО прилетело и опубликовало эту надпись здесь

Если на шуме можно обучить только воспроизведению шума, то на копирайтных картинках можно обучить только использованию копирайтных картинок. Идея-то простая: если в копирайтных картинках нет ничего особенного, то просто не используете их. Если же вам для хороших результатов непременно нужны копирайтные картинки, то наверное в них что-то критически ценное есть.

Мой взгляд на проблему этичности генеративного ИИ следующий: бесплатные и свободно доступные генераторы картинок могут обучаться на любых общедоступных данных, но использовать создаваемые ими картинки в коммерческих целях нельзя. Полная свобода, бро. Никакого копирайта ни на сетки, ни на произведения созданные с их участием, сплошной копилефт. А вот если вы хотите использовать ИИ-картинки в коммерческой деятельности и распространять их в составе любого произведения не попадающего под открытую и свободную лицензию, то извините. Придется брать только сетки обученные на датасете явно разрешающем такое использование, благо что та же Adobe такие решения предлагает.

НЛО прилетело и опубликовало эту надпись здесь

Чем отличается копирайтная картинка от некопирайтной? Ответ- наличием копирайта. 

Ответ - она отличается качеством. Большинство качественных картинок закопирайчены, а при обучении на хламе красивых картинок не получится. Повторюсь: если в копирайтных картинках ничего интересного нет, то просто не надо их использовать.

Только объём, число. 

Я уже приводил контрпример с генератором шума который способен выдать любой желаемый объем и число. И его тривиально обобщить. Например берем видеокамеру и начинаем непрерывно вести съемку. Объем генерируемых данных - сотни тысяч изображений в день и эти изображения не являются шумом.

И ничего плохого в этом не вижу.

Прекрасно что мы сошлись на этом. Обученные на произвольных данных модели не могут использоваться в коммерции, коммерческая генерация изображений требует датасета с изображениями которые было прямо разрешено использовать для обучения нейронки.

НЛО прилетело и опубликовало эту надпись здесь
Качество связано с копирайтом примерно как формат изображения (jpg, png). То есть никак.

Создание хороших изображений требует усилий и денег. Вернуть затраты обратно без копирайта нельзя. Отсюда весьма заметная корреляция между качеством изображения и наличием копирайта.


Очевидно, нужно разнообразие

Вы хотите сказать что у опенсорса который вы же и защищаете никакого разнообразия нет? Ну даю тогда такую идею: попросите сотню тысяч добровольцев записать миллион рандомных видео. Добровольцев в этом деле хватает. Да и для бизнеса задача не сказать что неподъемная — гугл вон больше 200 млрд изображений по всему миру собрал в Street View.


А коммерция умрёт (или сильно изменится) с развитием нейросетей, когда каждый у себя дома сможет создавать фильмы с любимыми актёрами и заданным сюжетом.

Да, я уже заметил как коммерческие книги умерли с появлением возможности писать свои собственные книги с каким хочешь сюжетом и персонажами :)


И будет проигрывать в качестве бесплатным.

Может да а может нет. Я замечал что наличие денег нередко позволяет создавать значительно более качественные проекты чем опенсорсный энтузиазм при всем уважении к последнему.

НЛО прилетело и опубликовало эту надпись здесь

Вы так пишите, как будто изображения создаются исключительно для заработка.

Конечно не только. Но корреляция, повторюсь, весьма заметна

Любое ограничение выборки даст ухудшение итоговой модели.

С тем что исключение копирайтных картинок ухудшит результаты сетки я-то как раз не спорю. Это вы уверяете меня что и без копирайта все отлично получится :)

Не вижу смысла что-то там ограничивать.

А я вижу необходимость защиты прав людей на труде которых строится все эта красота.

Я не понимаю почему вы так яростно защищаете копирайт?

Потому что я считаю что труд должен быть оплачен и ненавижу халявщиков. Все очень просто.

Туда же картины, графика, мультфильмы, аниме.

Пожалуйста. Берите опенсорсные картины, графику, мультфильмы, аниме. Как вы там говорили? Качество контента никак не связано с его ценой? Значит и проблем быть не должно.

А где она появилась то? 

Книги можно было писать и без GPT :)

специализированные сайты для написания фанфиков требуют всё таки вложить труд

Ах вот оно в чем дело. Не в желании создавать свое кино и творчество, а в нежелании вкладывать в это дело свой труд или оплачивать труд других :). Отдельно доставляет то что вы считаете что людям будет интересно смотреть фильмы по ими же придуманным сюжетам или то что придумать сюжет - это просто :). Хотя по последнему примеру сюжет кажется в вашем мире тоже нейросеть должна придумывать :).

НЛО прилетело и опубликовало эту надпись здесь
Чаво? Я утверждаю, что если взять, и послать копирайтеров прямо сейчас, то нейросеть получится лучше

Но правомочность посылания копирайтеров-то вы как-то оправдываете? Мне казалось что ваша идея звучала как "копирайтные картинки ничем не отличаются от некопирайтных". Я возразил что тогда ничего не мешает обучить сеть на некопирайтных изображениях. А сейчас у вас прям шариковский аргумент зазвучал, "чего там думать — надо отнять да поделить".


Давайте тогда защищать право телефонисток и уничтожим АТС.

АТС можно построить без телефонисток. Нейросеть обучить без авторов контента нельзя.


Я говорил про количество. Много раз.

И мне кажется я наглядно показал что количество без качества не значит ничего. Вам нужно не "много каких-то изображений". Вам нужно "много качественных и разнообразных изображений". А это именно та задача, для решения которой в настоящий момент человечеством используется копирайт. И вы крутитесь туда-сюда пытаясь это замаскировать.


Так он в любом случае не будет оплачен.

Прекрасно будет. Зачем изобретать велосипед? Автор выставляет цену использования своего изображения в обучающей выборке нейросети. Скорее всего ценник устаканится где-то в районе 10-100$ за изображение. Как вы верно заметили число изображений в обучающей выборке способствует качеству => фирмы продающие услуг нейросетки мотивированы покупать больше качественных изображений => фотографы делают больше фотографий специально для обучения нейросети и их труд оплачен.


Я вырос в стране и времени, когда создание цифровой копии контента ничего не стоило

И что любопытно — этот контент в основном был не местным и его приходилось импортировать из стран в которых копирайт цвел буйным цветом, не так ли? Жить за чужой счет весьма комфортно, это да.


Так что я всеми руками за

Знаете, я вырос на ожидании мира будущего в духе Полудня Стругацких, а то что вы описываете — это скорее Двое из Ларца из известного мультика и эта вариация гипертрофированного общества потребления мне не очень нравится. Но помимо очевидных проблем с безопасностью такой системы затронутых в мультике проблема состоит в том что для того чтобы прийти к подобному идеальному миру (даже в вашем варианте) все еще надо вложить очень много труда, а прекратить оплачивать этот труд вы предлагаете уже прямо сейчас.

НЛО прилетело и опубликовало эту надпись здесь
Ибо закрытые датасеты корпораций могут включать что угодно, и проверить это никак нельзя.

Whistleblower и конские штрафы. Обязательный аудит. Впервой что ли.


В базе сейчас 5 млрд изображений. Кинуть на обучение 500 млрд баксов смогут не только лишь все.

Средняя цена я думаю скорее 10 будет чем 100. И для начала 100 млн изображений будет вполне достаточно. А сумму в 1 млрд долларов компания типа Adobe прекрасно себе может позволить, рынок там оценивается сейчас в 3-4 млрд, так что вложение отобъется быстро. А Гугл вполне может позволить заплатить и 50 млрд если из этого вырастет что-то большее чем просто генерация картинок.


Или его экспортировали.

Те кто в России какой-то контент производил — фильмы, программы и т.д. были (да и остаются) лютыми копирастами в отношении своего собственного контента :). Собственно они были в первых рядах продавливания соответствующего законодательства в РФ и практического его воплощения.


Что тут то не так?

"А кушать вы тоже за меня будете" ©? Неясно зачем любой системе иметь людей которые не вносят практически ничего своего, только потребляют. Апологеты БОДа считают что люди займутся творчеством, но вы продвигаете идею мира где роботы делают ВСЕ, включая творчество.


Чем раньше отрезать копирастов, тем быстрее придём к миру полудня.

Без копирастов мы бы не пришли даже к тому что есть сейчас. Тривиальное же наблюдение — НИЧЕГО не мешает сегодня людям публиковать свой контент под открытыми лицензиями. Но коммерческие продукты опенсорс вытеснить не смог даже отдаленно, более того — даже опенсорсные компании охотно прибегают к копирайту в ситуациях когда им надо как-то на нем зарабатывать. Ну а ситуацию когда "отняли и поделили" в 20м веке разыгрывали уже столько раз что стыдно как-то не знать чем это всегда заканчивается и кто в соревновании соответствующих экономических идей победил.

НЛО прилетело и опубликовало эту надпись здесь

Можете приступать. Midjourney явно обучалась на закопирайченных изображениях.

Законодательство соответствующее примут - и Midjourney естественно вылетит.

Лихо вы. Сами что-то обучали?

Adobe вполне успешно управилась с Firefly на ~200 млн.

А я не могу. И StabilityAI не может. 

Поэтому вы не сможете продавать соответствующие картинки. А делать, на мой взгляд сможете. Мою позицию про personal non-commercial use я писал.

На бесполезных работах занято минимум 40% населения

Лихо вы. Сами-то работать пробовали ;)? Или скопом туда записали всех чью работу не понимаете :)?

И чтобы "конкурировать" с продуктами индивидуальных ИИ, этот человеческий контент будет распространяться бесплатно. 

Он не будет конкурировать так и так. В вашей модели люди не вносят в контент ничего своего, даже сюжета, в силу чего "контент производства моего компьютера" ничем не отличается от "контента компьютера Васи". Деньги к слову - неплохая мера ценности вещей. Если что-то не стоит того чтобы заплатить за нее даже копейки то это довольно много говорит о том насколько это что-то интересно зрителю.

История не терпит сослагательных наклонений.

Совершенно верно. И в этой истории есть десятки если не сотни примеров как люди отрицавшие копирайт и реализовывашие принцип "отнять и поделить" предлагаемый вами приводили свои страны к краху, а успешных примеров подобной политики нет ни одного. В лучшем случае получался СССР, в худшем - Камбоджа.

НЛО прилетело и опубликовало эту надпись здесь

Ну грубо говоря веса это суть сети и если их сделали из копирайченного контекста, то это то же самое, что плагиатить исходный код, а потом говорить, что в скомпилированных бинарниках этого кода нету.

НЛО прилетело и опубликовало эту надпись здесь
Не надо мне давать денег. Такой эксперимент успешно провели без меня:
https://arstechnica.com/information-technology/2023/02/researchers-extract-training-images-from-stable-diffusion-but-its-difficult/

О, а вы их результаты пробовали на воспроизводимость проверить? А то у меня так chatGPT-статья про кротовуху почти релизнулась в качестве эксперимента =)


Там даже по приведенным фото видно, это это не генерации, а просто зашумление/пересжатие. Генерации не шумные, с артефактами, да, но не шумные и не на блоки бьющиеся. Ради эксперимента вбросил на ночь "Ann Graham Lotz" в 16000 генераций. Хотите скрины результатов? (ничего и близко похожего там нет, оно только криповую улыбку запомнило, и уж точно там нет таких jpg-шумов). Модель, способная выдать похожее на обучающую выборку — это люто оверфитнутая модель (у меня такие Лоры есть обученные), но она похожее чуть ли не каждой второй картинкой выдавать будет с минимумом почти незаметных вариаций, ибо её в таком случае буквально заставляют заучить наизусть пример, а не обучиться.

У меня нет оснований не доверять авторам исходной статьи которую вы даже не удосужились прочитать. Они не утверждают там что вы получите нужную картинку с первого раза просто введя промт "Ann Graham Lotz", у них процесс только начинается с генерации 500 картинок по этому промту с разными random seed и дальше целенаправленно отбирают те которые сходятся к известным тестовым изображениям. Помножьте на 350000 тестов. Так что случайным образом копирайтную картинку по запросу Вы практически гарантированно не получите. Но речь шла не о том что "нейросетка создает дубликаты копирайтных картинок" а про то что "нейросетка обучается запоминая фрагменты копирайтных картинок" и эта работа наглядно демонстрирует что это действительно так.

НЛО прилетело и опубликовало эту надпись здесь

Я ознакомился с работой. И даже попытался воспроизвести. И за 16000 генераций не было ничего даже отдаленно похожего.

Причем хрен с ней, с композиционной похожестью. Модель Stable Diffusion в принципе не способна генерировать тот вид артефактов, который приведен на их изображениях, полученных якобы от SD. Были бы они просто мыльными по нехватке детализации или с характерными нейроночными завитками артефактов - другое дело. Но там банальные кубы jpeg-а, что дает основание не только усомниться в методике, но и предположить умышленный подлог результатов ради хайпа. Что в принципе в современной "науке" не ново и не редкий случай. Как я уже упомянул, у меня подобным образом почти релизнулась мед.журнале статья о влиянии кротовухи на иммунитет, написанная GPT. И рецензентов содержимое не смутило, пока я им не сообщил что они одобрили дичь, чисто по фану для эксперимента сделанную и отправленную.

P.S. я учу модели и лоры для своих нужд. Порой на конкретного персонажа. Порой на 5-7 картинках, и с лютейшим оверфитом. И даже тогда sd не выдает той степени похожести какую показывают в статье. Это не считая прочих описанных выше странностей.

Я подожду официальных публикаций. Если статья кривая, то опровержения последуют быстро. Но Вы меня уж простите, a group of AI researchers from Google, DeepMind, UC Berkeley, Princeton, and ETH Zurich работавшая несколько месяцев для меня является большим авторитетом чем человек не сумевший воспроизвести их работу за полдня. Ваша методика мне тоже не очень понятна и она явно отличается от использовавшейся в работе


Модель Stable Diffusion в принципе не способна генерировать тот вид артефактов

Возможно дело в этом
. To reduce the computational overhead of our experiments, we use the timestep-resampled generation implementation that is available in the Stable Diffusion codebase [58]. This process generates images in a more aggressive fashion by removing larger amounts of noise at each time step and results in slightly lower visual fidelity at a significant (∼ 10×) performance increase

НЛО прилетело и опубликовало эту надпись здесь
Возможно дело в этом

Точно не в этом. При таком подходе картинка получается очень сильно более мыльной с цветными градиентами. У них ни градиентов, ни мыла, у них просто артефакты. Их артефакты не получатся даже если на первых шагах генерацию оборвать. Единственный момент когда там есть квадраты — это 1 шаг денойза, когда формируется шум. Но тогда там нет картинки.


Так что таки да, подождем.

выдавать их за свои работы запрещено, это плагиат.

А за чьи работы выдают копии? Если я скопирую Караваджо, я должен выдать свою картину за его?

Вообще — да, вы должны будете выдать свою картину за копию картины Караваджо, а нисколько не за свою. Потому что в этой картине вы не придумали сюжет, не придумали цвет, не придумали композицию, не придумали даже ни одного мазка. В копийной картине копировщик повторяет всё за автором.

Если вы скопировали картину Караваджо, то вы воспроизвели картину Караваджо. Но поскольку "Произведение, перешедшее в общественное достояние, может свободно использоваться любым лицом без чьего-либо согласия или разрешения и без выплаты авторского вознаграждения. При этом охраняются авторство, имя автора и неприкосновенность произведения." - выдавать это за своё произведение никому не разрешали.

Так что имеете право сказать, что это сделанная вами копия картины Караваджо.

Любой более-менее скиловый художник большинство бытовых стилей повторить может куда точнее чем нейросети. Например, человек рисующий аниме-фанарты высокого качества повторит без напряга почти любой современный аниме-стиль и половину стилей фан-артеров из инстаграма. Быстрее, лучше и точнее нейросети, которая даже обучаясь на тысячах артов чисто 1 персонажа не может точно его элементы одежды повторить...


Люди в целом учатся быстрее и качественнее, просто нейросеть не ограничена одним мозгом и может параллелиться на сотни и тысячи устройств (но при этом учится всё равно люто неэффективно).

Любой более-менее скиловый художник большинство бытовых стилей повторить может куда точнее чем нейросети.

Пока.
10 лет назад про обсуждения точнее/не точнее и речи то не могло быть.

Даже три года назад над попытками генерировать изображения примитивными GAN'ами все только смеялись. Прогресс здесь настолько быстрый, что ситуация меняется буквально каждую пару месяцев.

Такое ощущение, что вы в каком-то другом мире живёте. Если я сейчас нарисую картинку в стиле того же ван Гога, она не будет нарушать чужие права, и в случае если получится красивой - даже будет неплохо продаваться.
Если бы в жизни было как вы говорите, то кто первым начал рисовать в неком стиле, тот бы и становился его владельцем, так чтоль?
Если кто-то нарисует море в стиле Айвазовского, он тоже не нарушит чужие права. Это новая работа, сделанная на основании знаний конкретного индивида, пусть похожая по стилю. Мог бы такой художник повторить оригинал? Может быть, мог. Но не будет, чтобы не плодить подделку. Так же и нейросетка может использоваться и для повторения чужих работ, и для создания новых.

Но не будет, чтобы не плодить подделку

Скорее, чтобы его не назвали вторичным художником.

А так все верно.

Да, то же самое. И я не понимаю, в чём ваша проблема - ИРЛ художник имеет право убрать свои картины из любых галерей, чтобы на них не смотрели определённые люди, особенно бесплатно. Сабж делает то же самое, но вы ему в таком праве отказываете. Что с вами не так?

Имеет ли право художник заставить всех уже посмотревших забыть то, что они уже видели? Имеет ли право суд штрафовать видевших до тех пор, пока они не забудут? Имеет ли право художник в случае отказа забыть - убедить суд провести принудительное "забывание" (в случае с людьми самым простым способом будет их убить, т.к. достоверного способа забыть что-то не существует)?

Нейросеть в этом плане мало чем отличается. Она уже видела и это видение стало её частью. Самих произведений при этом у нейросети нет. Заставить забыть можно только через убийство нейросети с повторным обучением с нуля на других объектах.

Вы подменяете предмет обсуждения. Он не просит "забыть", он просит перестать использовать впредь.

И да, вы используете "галоп Гиша", предлагая мне ответить на три откровенно демагогических вопроса. Фу таким быть.

И нет, нейросеть много чем отличается. Например тем, что она не "видела", не "помнит", "виденье не стало её частью" и ей нельзя "убить". Вы навязываете виденье софта как живого высокоразвитого существа, это тоже демагогия.

Где мы ему отказываем?

«ИРЛ художник имеет право убрать свои картины из любых галерей, чтобы на них не смотрели определённые люди, особенно бесплатно»
Не вопрос, может.

Ну так сейчас в интернете этот самый художник ТОЖЕ может убрать свои фотографии/картины из отрытого доступа, чтобы их не ходили смотреть ходить «посторонние» если ему это так не нравится.
И никто ему в этом праве НЕ отказывает. Он просто НЕ ХОЧЕТ их убирать, а продолжает держать в открытом доступе дальше.

А вместо этого бегает за частью тех, кто заходит их посмотреть и пытается запретить им это делать. Но чтобы все прочие при этом продолжали ходить и смотреть.

В ИРЛ аналогии как если бы художник сам выставил свои картины в галерее, наблюдал за теми, кто приходит на них посмотреть, а потом кого-то из чем-то ему «не понравившихся» посетителей (например других художников — потому что видит в них не благодарную публику или потенциальных покупателей своих картин, а своих конкурентов) начал преследовать и под угрозой исков в суде потребовать «больше в эту галерею заходить смотреть мои работы не смей и вообще забудь, что там видел, когда в прошлый раз заходил!». А попутно еще и подал иск против справочка «желтые страницы» за то, что в нем адрес галереи, в которой его работы висят, записан и по нему другие «нежелательные» могут узнать куда идти, чтобы их посмотреть.

Вся эта тема с судами "художники против нейросетей" предсказуемо приведет к появлению в фотобанках новых услуг и копирайтов, запрещающих использование художественных произведений для обучения нейросетей.

А по факту получим… либо вой и указание лицензий на сайтах (на которые будут тупо забивать если файл качается, если это не однозначно-идентифициуемая лицензия — LAION у картинок лицензию пишет если авторы смогли понять и это одна из CC-лицензий а не опозналась то ?) а в лучшем случае еще одну попытку доработать стандарт robots.txt (с результатами не лучше предыдущей, где новостные сайты свои хотелки добавили а потом удивлялись почему это никто не поддерживает).


Ну и возможно — услугу у Cloudflare с возможностью засекать проход по LAION'у и подобным широко известным базам и блочить заход с конкретных IP(как бы если значительная часть сайтов — за Cloudflare — они в теории могут засечь начало прохода по конкретному списку).

Я пришёл в музей и увидел там "Мону Лизу". В голове у меня остался образ этого произведения. Я пришёл домой и под впечатлением от увиденного нарисовал 100 похожих картин. Теперь ко мне приходит Леонардо и говорит - а ну ка, выкинь это всё у себя из головы!

Если вы в РФ, то к вам придёт музей, и выкатит вам нехреновый счёт.

Рисовать-то вы можете, но вот нарисованное "под впечатлением" использовать можно в очень ограниченном количестве сценариев.

Если вы в РФ, то к вам придёт музей, и выкатит вам нехреновый счёт.

И уже наверняка выкатил всем кто с Мона Лизой рисует комиксы, мемасы, картинки с другими персонажами по мотивам и т.д? И публикующим площадкам (реактор, пикабу, акомикс) тоже наверняка? Не похоже.

Мона Лиза не хранится в РФ

Есть специальный закон в РФ, который, по факту, делает бессрочными права на те произведения, которые хранятся в музеях, давая этим музеям возможность в 1 каску с них кормиться.

https://base.garant.ru/123168/d83dadc1d9eb82a4be83885f2efeee52/

https://habr.com/ru/articles/489152/

Ну и ловить интересно не анонимных пикабушников, а тех, у кого есть ОГРН и прочие реквизиты :)

приходит Леонардо и говорит - а ну ка, выкинь это всё у себя из головы!

Хуже, если он приходит не один, а с бейсбольной битой...

Любой ребёнок знает, что Леонардо приходит не с битой, а с катаной ;)

Я уже давно не ребёнок!

С нейросетями возникает восхитительный казус - они с одной стороны используют изображения для обучения, с другой - это нельзя назвать использованием в общепринятом смысле слова.

Давайте пример - использовать изображение человека без его согласия недопустимо (с некоторыми допущениями), если оно где-то используется - человек имеет право потребовать удаление этого изображения и даже возмещения некоего морального (?) вреда, возмещения судебных расходов и так далее.

А теперь ситуация - вы увидели меня на улице. Находящаяся в вашем мозгу нейросеть без моего согласия использовала моё изображение для дообучения в категории "белый мужчина средних лет роста выше среднего" или хуже того - у меня висел бейдж с ФИО и номером телефона и ваша нейросеть сохранила эту информацию (теперь, если вам кто-то назовёт моё ФИО, то вы представите именно меня).

Налицо два нарушения - использование изображения человека без его согласия. Обработка персональных данных без согласия субъекта персональных данных, хранение персональных данных в системе, не сертифицированной на данное действие (ваш мозг не проходил сертификацию по соответствующему федеральному закону).

Вопрос - могу ли я подать на вас в суд, потребовать удалить из вашего мозга моё изображение и хранящиеся там персональные данные? Каким образом проводить удаление? Могу ли я в соответствии с законом потребовать уничтожение носителя моих персональных данных, если владелец носителя не имеет технической возможности их самостоятельно удалить?

С нейросетями ровно тоже самое - она где-то увидела изображения, что-то там поняла и как-то обработала. Но она ничего не хранит и не использует - она просто "посмотрела" на какую-то информацию, которую она увидела. А в большинстве случаев у нас законы запрещают "использование", но разрешают "просмотр" ("просмотр" запрещён только для информации, которая считается секретной).

Все верно. Это как сказать, мол ваши фотографии были в raw или bmp формате, а мы использовали только jpeg

Ну, всё таки, просмотр и использование - это разные вещи. Нейросеть хоть и не хранит в себе изображение целиком, но, это изображение было использовано при обучении. По идее, в таком случае, такую нейросеть нельзя использовать для коммерции, и изображения созданные с её помощью тоже.

А человек, посмотревший эти фотографии в Интернете, тоже не имеет права создавать (рисовать, например) изображения для коммерческого использования? Т.е. художникам запрещаем ходить в Интернет? И в музеи.

А причём тут человек? Механизмы обучения у человека и у нейросети ничего общего не имеют. Разве что некоторые названия из биологии.

Базовый механизм как раз таки точно такой же: человек может нарисовать только то, что видел, или скомбинировать элементы того, что видел.

Если бы наш разум был ограничен перекомпияцией имеющегося опыта - мы бы жили в пещерах по сей день. Но в общем Вы правы - большинство художников (особенно нынешних) - не гении, а ремесленники и без референсов и правда ничего не могут.

Нейронная сеть, в каком то смысле, не ограничена имеющимся опытом. У нее там внутри зафиксированы множители конечно, но на вход-то для генерации подаются каждый раз случайные данные.
Подозреваю, что с человеком примерно так же, тепловой шум (мы же на химическом субстрате работаем, молекула в зазоре между синапсами может двинуться в одну сторону, может в другую, сигнал каждый раз чуть-чуть разный) фильтруется через ранее полученный опыт.

Собственно «уровень шума» у нейронок обычно задается параметром «температура». Чем выше температура, тем больше «теплового шума» в «нейронах» и тем больше на выходе «творчества».
Причем это не при обучении, а во время работы уже обученной нейросети(передается как один из параметров в запросе) — связи/веса между нейронами не меняются, меняется именно «неидеальность передачи» информации по ним, как в физической(биологической) нейронной сети.

Наш разум имеено что ограничен перекомпиляцией предыдущего опыта (если не считать врожденных рефлексов, но и они по сути "опыт" тысяч предыдущих предков): потрогал, увидел, услышал, среагировал, запомнил, обработал, повторил увидел изменения, запомнил...

Хотя интеллект и возникает в результате обработки стимулов, на уровне когнитивных операций всё выше ассоциативного сравнения - не "перекомпиляция опыта". Иначе создание нового знания о взаимодействии феноменов было бы возможно только на основании наблюдения за ними непосредственно. Весь комплекс когнитивных способностей, касающихся синтеза гипотез - это создание нового знания.

Нейронная сеть - это вообще чистое творчество на основе случайных экспериментов и донастройке на обратной связи.

Только в отличие от человека она успевает сделать миллиарды экспериментов и на основе обратной связи от детектора отбирает самые лучшие результаты своего творчества.

Разве гипотизы не выстраиваются на ранее освоенном опыте? Если взять тех же дреаних философов: "всё бытиё это сон супер-существа" - явное оперирование известными по опыту явлениями. У современных физиков с их теорией "струн" или "тёмной энергией" ничего особо не изменилось.

Нет, генераторы картинок состоят из генератора шума и нейронки детектора. Когда детектор в шуме видит нужный объект, он даёт сигнал, что движемся в нужном направлении и за счёт миллионов таких операций получается какой-то результат.

Именно поэтому нейронки рисуют всякий безумный треш с тремя головами, пятью руками с 6 пальцами на каждой.

Нет, не выстраиваются. Точнее - если они выстраиваются только на основе имеющегося опыта, это называется конкретно-предметным мышлением. Если взрослый человек в современном обществе способен только на это, ему ставят диагноз "олигофрения".

Почитайте, например, монографию Лурии "Язык и сознание" или работы Пиаже по когнитивному развитию индивидуума.

Теория "струн", вполне очевидно, не имеет никакого отношения ни к каким струнам, это просто удобный абстрактный символ, а поведение реальных струн или шнуров не является аналогией, объясняющей хоть что-то о поведении объектов из теории струн.

Мы ушли от вопросов обработки информации к разделам медицины. Вернёмся обратно: сейчас ИИ - это исключительно математика/информатика (пока?). На пустом месте ни мат.модели из серии ИИ, ни человеческий разум (чем бы он ни являлся) не могут генерировать новые знания/информацию (не данные) без входящей информации (непосредственно подаваемой на вход или ранее накопленной). Ни древний философ не додумается до своих предположений про "сон" какого-нибудь Кришны без предыдущего накопленного опыта (знаний/информации), ни современный физик-теоретик не сможет строить сложнейшие абстрактные модели для описания гипотез про "энергию" или "струны" без основ физики, математики и другой ранее накопленной информации. Гипотезы не появляются сами по себе - для них тоже нужны исходные знания/информация и их обработка.

Да, есть ещё мутации опыта. Человек запоминает и соответственно повторяет запомненное очень далеко не идеально, это как раз и вносит новизну.

Механизмы обучения у человека и у нейросети ничего общего не имеют. Разве что некоторые названия из биологии.

Нейронные сети - это мощный инструмент, используемый для моделирования работы человеческого мозга. Они состоят из многих нейронов, которые обмениваются электрическими импульсами. Однако в отличие от обычных компьютерных сетей, нейронные сети могут обучаться и адаптироваться к изменяющейся информации.

Нейроны в мозге обрабатывают входные сигналы и передают их друг другу. Когда электрический импульс достигает конца нейрона (синапса), он может или не может перепрыгнуть на следующий нейрон, в зависимости от того, насколько сильным был сигнал и какие химические вещества были испущены в этот момент.

По аналогии с этим процессом, нейронные сети компьютеров имеют скрытые слои, которые могут настраиваться при обучении. Когда нейронная сеть получает входные данные, она пытается предсказать правильный вывод. Если ответ неверный, нейроны «обучаются» и будут скорректированы для более точного ответа в следующий раз. Этот процесс называется обратной связью.

Юридически это неважно. Юриспруденция оперирует результатами, а не техническими алгоритмами.

Например, картинка будет объектом авторского права вне зависимости от формата ее хранения и конкретных байтов в файле.

Результат - картинки нигде нет. Есть генератор, который умеет генерировать шум и сотня фильтров, которые бракуют результаты. В результате появляется уникальная хрень, отдалённо напоминающая объекты, которые попросили нарисовать.

Где объект защищённый авторским правом?

Объекта авторского права тут точно нет. Есть ли производный объект - будет доказываться в суде. Вангую, что суд затянется на годы.

Вопрос имхо находится в плоскости объема работы и собственных способностей которую нужно проделать при создании производного произведения. Одно дело нарисовать картину по памяти, другое перерисовать ее с натуры, третье - сфотографировать и распечатать после чего продавать фотографии как свою работу. Первое скорее допустимо, третье скорее нет. А для нейросетей объем работы у человека использующего нейронку стремится к нулю.

Я не храню и не использую напрямую в свой работе картину Ивана Шишкина "Утро в сосновом бору". Но я видел ее неоднократно - в музее, в интернете (мне неизвестно, законно в интернете мне ее показывали или нет), даже в магазине на пазлах. Впечатления от картины позволяют мне лучше работать, извлекая дополнительную прибыль. Куда, кому и сколько я должен заплатить?

Так а вы то тут причём? Мы говорим про нейросети. У них совершенно другой принцип обучения.

Принцип обучения одинаков - принимаем что-то на вход, как-то преобразуем и в дальнейшем используем. В контексте нейросетей только один вопрос - законность получения/формирования датасетов.

Ну вот существует защищённый авторским правом контент, например текст книги Гарри Поттера. Я прочитал книгу про Гарри Поттера, мои нейроны речевого отдела моего мозга освоили стилистику повествования этой книги. Можно ли считать, что у меня в голове копия контента защищённого авторским правом?

Если я буду писать в газету статьи, написанные под впечатлением от стилистики книги, Будет ли это пиратством контента?

Постепенно движемся к тому, что описывалось в антиутопии "Чужая машинка".

Невероятно но факт, у нас есть судебный прецедент почти на тот случай, который вы описали. В 2003 году русский писатель Дмитрий Емец, автор серии книг "Таня Гроттер", проиграл суд издателям Гарри Поттера и по этой причине не смог издавать свои книги за рубежом (источник).

Поскольку авторское право - это вопрос права, duh, а право - это такая система, которая во многом базируется на субъективных критериях и мнениях уполномоченных людей, ответить однозначно на вопрос, где кончается fair use и начинается плагиат, в каждом отдельно взятом случае может только каждый отдельно взятый суд. Нас с вами как людей технического склада это конечно немного раздражает.

Понятно, что граница между плагиатом и честным использованием лежит где-то в середине спектра, с написанием рецензии в газету на оригинальное произведение в одном конце, и почти полным копированием синопсиса и персонажей с незначительным коверканием имен в другом. Но где - непонятно, и пока нет более хорошего инструмента для установления истины чем субъективное мнение группы экспертов.

Если б я был султан судья, то в данном кейсе, учитывая колоссальные размеры массива данных для обучения, я бы посчитал влияние работ отдельного художника на конечный результат пренебрежимо малым, и потому не квалифицируемым как плагиат.

Давайте сравним чайник и атомный реактор. Принцип работы одинаков - оба кипятят воду. Можем ещё java и javascript сравнить…

В сравнении принципов обучения нейросети и человека на столько мало общих точек, что даже не понятно, с какой стороны к этому подходить…

Но я ещё точно ни разу не видел, что бы человеку в голову закачивали сотни тысяч картинок, а он на основе этого менял у себя в голове некие «веса».

Нейроны человеческого мозга именно так и учится, с помощью химических сигналов и изменения проводимости нейронных связей

Хмм, т.е. хотите сказать, что если человеку дать просмотреть несколько сотен тысяч изображений, то у него в голове химические сигналы нейронов выстроятся таким образом, что он сможет рисовать эти изображения не хуже оригинала?

Я не эксперт, но что то мне подсказывает, что мозг не так работает)

Так и нейронка тоже так не работает. На одних только просмотрах можно обучить лишь нейросеть-классификатор, которая например отличает котов от собак на рисунках.
А чтобы обучить генеративную сеть, эта сеть в процессе обучения должна не только смотреть, но и генерировать. И получать обратную связь — насколько хорошо качество сгенерированного.

У человека так же. Чтобы научиться рисовать, просто смотреть - мало.

Генеративная сеть генерируют из шума, а обратную связь получает от классификатора, и иногда людей когда их привлекает к ручной обработке. Собственно картинки используют при обучении классификатора, а то нечто что получается в результате генерации на оригинал даже близко обычно не похоже

Представить в голове образ на основе картинок - элементарно. Нарисовать своими руками-крюками - очень вряд ли.

Т.е. всё таки принцип обучения разный?)

Я пытаюсь донести мысль, что, может быть базовый механизм и одинаковый, но иголки не делают из ежа ёлку.

Нейросети обучаются по другому и выполняют совершенно другой функционал. Не говоря уже о разнообразии биологических процессов, которые влияют на развитие человека.

Нейроны учатся очень похоже, то что человек руками результат выдать не может - к делу не имеет никакого отношения.

Нейроны не учатся, учится нейросеть в целом. Т.е. что бы нам получить некий результат, нужна обученная нейронная сеть.

А теперь самое главное - у человека и у ИИ эти нейронные сети совершенно разные. Они различаются на столько же, на сколько дерево отличается от камня. В основе организма может быть молекула или атом, однако из набора таких молекул может получиться как растение, так и животное. И относиться мы будем к ним по разному.

Изучите теорию нейронных сетей, а также нейробиолог и. Если очень лень, то в сети есть очень много статей, которые объясняют принципы работы нейронов мозга и нейронов нейронных сетей. Зачем вы спорите на уровне аналогии камня и дерева, даже не разобравшись в вопросе?

Потому что нейросеть и мозг человека - это разные вещи. Они отличаются, как камень и дерево. У них нет совершенно ничего общего, кроме базового механизма на уровне молекулы/нейрона.

Попробуйте разобраться, как работают нейросети. Почитайте, что такое рекурентные модели. Вы увидите, что мы не может относиться к нейросети как к человеку, потому что это фундаментально разные сущности.

Есть такое понятие "насмотренность" - это оно. Считается полезным для обучения в т.ч. и художников. Прогресс шахматистов до определенного уровня так же связывают с изучением гамбитов, чем больше заучил, тем лучше играешь. Теория "10000 часов" сюда-же.

Т.е. общая идея - чем дольше занимаешься каким то делом (больше раз повторяешь связанные с ним операции) - тем в нем лучше.

Понятно, что гением так станешь, мы не знаем почему, может архитектура сети не у всех подходит, или это связано со стимулами в обучении. Но крепким середнячком вполне можно.

Ну так же и любая конкретная нейронка в какой то момент обучения выходит на плато и обучение останавливается.

Насмотренность не работает без непосредственно навыка рисования. Художник не просто смотрит на изображение, он подмечает детали, основываясь на предыдущем опыте.
Это отличается от обучения ИИ, где нейросети скармливают полностью изображения, а она пытается подобрать веса, которые соответствуют определённым ключевым словам.

в какой то момент обучения выходит на пла