ko_ya 2 фев 2024 в 14:43

Anthropic: копирайт мешает развивать ИИ, долой копирайт

3 мин

2.2K

Блог компании Online patentИскусственный интеллектКопирайтКонтент и копирайтинг*

Второй по известности после Open AI ИИ-стартап решил разрубить один из главных гордиевых узлов современности. В компании считают, что данные, на которых обучают нейросети, не должны быть защищены авторскими правами. Разработчики моделей не должны платить за их использование. Иначе продукты на основе искусственного интеллекта просто не смогут существовать.

Такое заявление представители Anthropic сделали в суде по иску, который в октябре 2023 года подала к ним группа музыкальных издателей, включающая UNIVERSAL MUSIC CORP. Правообладатели хотят компенсации ущерба за использование в обучающих подборках текстов принадлежащих им песен. Истцы считают, что Anthropic незаконно скопировали и распространили «мириады» текстов и требуют возмещения ущерба в размере «до $150,000 за одну композицию». Истцам непонятно, почему одна компания должна свободно и бесплатно использовать продукт другой компании для построения своего бизнеса.

Из Anthropic ответили, что в обучении ИИ-моделей защищенные авторскими правами работы используются для анализа статистических взаимосвязей между словами и понятиями, что не имеет никакого отношения к цели создания работы. К тому же, это никак не мешает правообладателю продолжать зарабатывать на своей интеллектуальной собственности.

Требование платить за использование защищённого авторским правом контета приведёт к тому, что его смогут использовать только богатые компании.

В документе от 16 января 2024 года Anthropic более подробно расписали свои аргументы. И начали с того, что они не единственная компания, которая берёт данные из открытых источников в интернете.

«С практической точки зрения нет никакого другого способа набрать достаточный массив обучающих данных такого масштаба и разнообразия, какие нужны для обучения сложной LLM-модели, которая будет понимать человеческий язык и мироустройство в целом».

Ещё один аргумент: данных нужно слишком много, чтобы получилось построить какой-то эффективный механизм оплаты за использование интеллектуальной собственности:

«Невозможно заключить лицензионные соглашения с достаточным количеством правообладателей, чтобы охватить миллиарды текстов, необходимых для получения триллионов токенов для надлежащего обучения LLM общего назначения. Если бы обучение требовало лицензирования защищённого копирайтом контента, современные инструменты на основе генеративного ИИ просто не могли бы существовать».

Также Anthropic попытались утешить правообладателей тем, что интегрировали в свои модели механизмы ограничения использования защищённого авторским правом контента. Модель должна уметь распознавать такой контент и не воспроизводить его свыше определённых лимитов.

Правда, работают эти механизмы несовершенно, признали в компании. Пользователям то и дело удаётся их обойти и заставить модель выдать им целостный фрагмент закопирайченного контента.

В Anthropic уверены, что использование защищённого авторским правом контента для обучения LLM-моделей должно считаться fair use (доктрина добросовестного использования подразумевает ограничения и исключения из авторского права при определённых условиях, в частности, если использование приносит пользу обществу, способствует развитию наук или искусств). В американском законодательстве (где появилась и работает эта доктрина, что вызывает вопросы к решению той же проблемы в других юрисдикциях) есть алгоритм определения того, подпадает ли использование под критерии, нужные для fair use.

Тем временем, в США издание New York Times отринуло полумеры и подало на OpenAI иск, требуя от суда ликвидировать ChatGPT. В NYT утверждают, что нейросеть незаконно тренировали на данных, принадлежащих изданию, и, кроме того, теперь она выдаёт ответы, содержащие эти данные.

OpenAI должна, считает истец, удалить незаконно использованные данные, а также саму языковую модель GPT-4. Согласно американскому законодательству об авторском праве суд действительно может потребовать удалить продукцию, созданную с нарушением закона, а также оборудование, с помощью которого она создавалась.

Относительно похожий прецедент уже существует: Федеральная торговая комиссия уже заставила несколько компаний, включая сервис для похудения Weight Watchers, удалить незаконно собранные данные и алгоритмы, работающие на основе этих данных. С другой стороны, законодательство допускает уничтожение незаконной продукции только если это будет «единственным средством» избежать продолжения правонарушения.