“Encyclopedia Britannica” подаёт в суд на OpenAI из-за обучения на почти 100 000 статей без разрешения / Хабр

Encyclopedia Britannica и её дочерняя компания Merriam-Webster подали иск против OpenAI в федеральный суд Манхэттена.

В иске утверждается, что OpenAI без разрешения использовала почти 100 000 онлайн-статей, энциклопедических материалов и словарных определений для обучения своих моделей искусственного интеллекта. Согласно заявлению истцов, в некоторых случаях ChatGPT воспроизводит тексты “Britannica” почти дословно, из-за чего пользователи получают нужную информацию прямо в ответе модели и реже переходят на собственные сайты “Britannica”.

“Britannica” также обвиняет OpenAI в нарушении прав на товарный знак. По словам компании, ответы ChatGPT создают ложное впечатление, будто “Britannica” одобряет использование её материалов, а сама энциклопедия нередко указывается как источник даже в тех случаях, когда ответ ИИ оказывается неточным. Истцы требуют компенсации убытков и судебного запрета.

В тексте искового заявления говорится, что GPT-4 якобы “запомнила” значительную часть защищённого авторским правом контента Britannica и способна по запросу воспроизводить почти дословные копии целых разделов.

GPT-4 сама по себе “запомнила” значительную часть защищённого авторским правом контента Britannica и по запросу способна выводить почти дословные фрагменты значительных объёмов текста. Эти запомненные примеры являются несанкционированными копиями, которые ответчики использовали для обучения своих моделей, включая GPT-4.
– Фрагмент искового заявления

Вопрос о том, содержатся ли защищённые авторским правом произведения непосредственно в параметрах моделей ИИ – и можно ли считать это копированием, сегодня решается судами по-разному.

Так, в деле GEMA v. OpenAI суд Мюнхена постановил, что тексты песен фактически встроены в веса моделей GPT-4 и GPT-4o, а значит, речь может идти о воспроизведении произведений, имеющем значение с точки зрения авторского права. Мюнхенскому суду оказалось достаточно самого факта, что из этих параметров можно восстановить произведение, – этого, по его мнению, уже достаточно для требований о судебном запрете и возмещении ущерба.

Однако Высокий суд Англии и Уэльса в деле Getty Images против Stability AI пришёл к прямо противоположному выводу: модель ИИ не является “незаконной копией”, поскольку её веса не содержат и не воспроизводят защищённые произведения напрямую. Суд счёл, что параметры модели хранят лишь выученные закономерности, а не сами произведения.

Между тем исследование учёных из Стэнфорда и Йеля показывает, насколько реальной может быть эта проблема: команда сумела извлечь из ведущих ИИ-моделей целые книги почти слово в слово. В некоторых случаях, как сообщается, воспроизводилось до 96% текста “Гарри Поттера” практически без изменений.

Делегируйте часть рутинных задач вместе с BotHub! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 300 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!

“Encyclopedia Britannica” подаёт в суд на OpenAI из-за обучения на почти 100 000 статей без разрешения

Другие новости

Информация