Как стать автором
Обновить

Комментарии 28

По мнению писателей, такие ответы потребовали бы доступа к текстам романов.

Милионы школьников подтвердят, что это совершенно необязательно - достаточно почитать укороченную выжимку.

 нарушили авторские права, нарушили Закон об авторском праве в цифровую эпоху (DMCA), нарушили калифорнийские и общие законодательные ограничения на недобросовестную конкуренцию. В жалобе утверждается, что ... использовались в качестве обучающих данных для GPT-3.5 и GPT-4.

Очень бы хотелось узнать конкретные пункты законов, которые, по их мнению, были нарушены.

"Право на запрет на обучение по произведению", насколько мне известно, не предоставляется ни законами об авторских правах, ни DMCA, ни тем более о недобросовестной конкуренции.

Единственное исключение - если модель обучена так, что может выдать дословный текст произведения.

Что ж, openai может прийти в суд и сказать, что они действительно использовали только укороченную выжимку. Скорее всего это прокатит. Но есть маленький шанс, что их поймают на лжи и ничем хорошим это для них не кончится. Поэтому, я думаю, они дважды обдумают, прежде чем такое утверждать (разве что это на самом деле правда, но это вряд ли)

Но для создания выжимки используется полный текст.

Но для создания выжимки используется полный текст.

Но это разрешенное использование. Читатель имеет право прочитать и пересказать книгу.

Очень бы хотелось узнать конкретные пункты законов, которые, по их мнению, были нарушены.

В статье по первой ссылке есть ссылка на дело.

COUNT I
Direct Copyright Infringement
17 U.S.C. § 106

COUNT 2
Vicarious Copyright Infringement
17 U.S.C. § 106

COUNT 3
Digital Millenium Copyright Act—Removal of Copyright Management Information
17 U.S.C. § 1202(b)

COUNT 4
Unfair Competition
Cal. Bus. & Prof. Code §§ 17200, et seq.

Следующая итерация процесса :"Ваш мозг незаконно обучился и должен быть уничтожен".

Есть варианты когда не то прочёл и больше нельзя выезжать из страны. Так что - уже есть.

Всё же ключевое не в том, что прочёл, а в том, что подписался под обязательством не выезжать.

Не обязательно. Ученые последнее время узнают о содержании гостайны в их работах после публикации работ. Со всеми вытекающими.

Для обучения человеческой нейросети в законе прописано исключение, для искусственной - нет.

действительно, прежде чем прочитать книгу или статью, нужно её сначала написать, причем не умея ничего и не читая.

новый киберпанк: книги нельзя читать и кино смотреть из-за нарушения авторских прав. поэтому люди генерируют их с помощью чатгпт и читают.

Но ведь можно взять случайный набор слов из английского языка и "тщательно" перемешать получив последовательность более или менее похожую на это произведение (другой вопрос сколько раз придется это повторить). Неужели рандом тоже нарушит права, а если предоставить весь сгенеренный набор (10^100...)?

А еще лучше предоставить позицию в числе пи, с которой будет начинатся это произведение если замапить число в букву из таблицы ASCII

Если вы сможете из полного набора выбрать полезные для обучения последовательности, это само по себе нобелевка. А пока это гипотетическая возможность, они не генерировали последовательности сами, а взяли чужие.

НЛО прилетело и опубликовало эту надпись здесь

Если сейчас эти писатели проиграют в суде, это создаст прецедент, закрепляющий право обучать модели на любых текстах.

Право обучать и так есть, вопрос в праве распространять полученные в результате обучения модели и/или результаты их генерации.

К примеру, в предельном случае вы может попросить модель выдать текст какого-нибудь охраняемого авторским правом стихотворения - и если оно выдаст вам полный его текст, то чем это отличается от скачивания архива с ним с пиратского сайта?

вот в том и дело, какой кусок необходимо выдать, чтобы попасть под авторские? и как доказать, что это было сгенерировано случайно?

Всё-таки правильный вопрос "как надо тренировать, чтобы не попасть под авторские"?

Решается последовательной тренировкой двух моделей, когда выхлоп первой после фильтрации всего черезчур похожего на исходный тренировочный сет используется как новый тренировочный сет для второй модели, которую и пускаешь в продакшн.

Тогда случайность доказывается демонстрацией этого чистого от копирайта тренировочного набора данных и вашего запроса.

Так второй тренировочный сет вы сделали с помощью первого. Или идея в том, что бы скрыть первый сет? Тогда ничем не отличается от попытки скрыть любое другое нарушение.

Идея в том, чтобы модель обучалась только на данных, свободных от чьего-либо копирайта - созданых первой моделью и проверенных на свободность.

Первая модель при неудачном стечении обстоятельств и плохой тренировке может случайно "зазубрить" какое-нибудь произведение из первого сета (то, как у чат GPT выманивают ключи к Windows показывает, что это вполне реальная опасность), так что она станет "производным произведением" его - т.е. её распространение будет нарушать копирайт автора этого произведения.

При этом большая часть её вывода не будет ничего нарушать, поэтому после проверки и фильтрации и из него и можно будет отобрать второй тренировочный сет, никоим образом не нарушающий ничей копирайт.

Идея на самом деле хорошая. Пока проблема в том, что на выдаче хорошей нейросети можно натренировать только более плохую. Я видел эксперименты на уровне до 90% качества, но метрики подозрительные. В реальных условиях будет ещё хуже.

Всё зависит от отбора результатов и качества исходного набора данных - вполне может быть не только не ухудшение а наоборот, серьёзное улучшение конечной нейросети.

Например, одна из проблем Stable Diffusion - в том, что многие из картинок в тренировочных наборах имеют надписи или водяные знаки, или неудобные пропорции, из-за чего при подготовке к тренировке обрезаются головы или ноги.

Тогда если отбирать только самый лучший вывод - то эти проблемы будут устранены во второй нейросети. Кроме того, этот второй набор скорее всего будет размечен тегами гораздо лучше, чем исходный, так что и в этом новая нейросеть будет лучше.

К примеру, в предельном случае вы может попросить модель выдать текст какого-нибудь охраняемого авторским правом стихотворения

Вы теоретизируете, а я говорю о конкретном судебном кейсе. А в рамках этого кейса — жалоба на то, что модель смогла выдать резюме текста. Так что теперь, все обзорщики фильмов, книг — вне закона?


Ещё зависит от количества текста и рамок "добросовестного цитирования". Например, Гугл сейчас легко выдаёт куски текстов песен или книг, по названию или нескольким словам из контекста — он тоже должен быть запрещён?

Я говорю о "прецеденте" - как бы не решил суд в данном случае, это всё равно не даст "права обучать модели на любых текстах любым способом" потому что в предельных случаях такое обучение является созданием производного произведения.

Всегда будет речь идти именно про конкретную обученную модель и конкретный тренировочный датасет.

Читатель, разумеется имеет право прочитать текст. А вот имеет ли такое право искусственный интеллект - большой вопрос. Ведь если суд признаёт право ИИ, то тем самым приравняют ИИ к человеку. И тут начнутся коллизии посерьёзнее авторских прав. Например на каком основании компания владеет разумным существом, почему заставляет его работать, ведь рабство запрещено. И т. д.

Помнится были некоторые тёрки по поводу права Google читать почту пользователей для детектирования спама или для чего то еще (гарушение тайны переписки). И тогда говорилось что тайна переписки типа сохранена, так как это анализирует не человке а компьютер (программа) и с точки зрения тайны переписки так можно....
А теперь все перевернулось и ИИ не имеет права читать и делатиь свои выводы по поводу прочитанного ?

Там ЕМНИП как раз делался акцент на том, что это машина, которая отслеживает триггеры, но не анализирует текст и главное, не использует этот текст в дальнейшем.

Тут с точностью до наоборот: текст используется для обучения, чтобы потом с использованием результатов анализа выдавать пользователю результат.

Попадался мне аргумент, что с образовательной целью пользоваться можно, но тут коллизия: можно образовываться человеку. Используя такую аналогию, мы автоматически приравниваем машину к человеку, но тогда помимо права обучаться надо давать и остальные права

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Другие новости

Истории