Как стать автором
Обновить

OpenAI обучила ChatGPT не выдавать защищённый копирайтом контент

Время на прочтение2 мин
Количество просмотров2.2K

ByteDance провела исследование, которое посвящено обучению различных языковых моделей для повышения точности их ответов. В нём сообщается, что OpenAI попыталась скрыть использование защищённых авторским правом книг в этом процессе.

arxiv.org
arxiv.org

Исследователи выяснили, что чат-бот ChatGPT уходит от ответа на пользовательские запросы, где есть фразы из защищённых копирайтом материалов. Это происходит, например, тогда, как когда человек задаёт предложение из книги и просит чат-бота продолжить повествование. Предыдущие версии ChatGPT без проблем выполняли эту задачу. 

«Мы полагаем, что разработчики ChatGPT внедрили механизм для определения, когда пользователь стремится вытянуть защищённый авторским правом контент или проверить сходство между сгенерированным ответом и контентом, защищённым авторским правом», — говорят исследователи.

Тем не менее, так происходит не всегда. 

Исследователи проверяли различные версии ChatGPT, OPT-1.3B от Meta*, FLAN-T5 от Google, DialoGPT от Microsoft и ChatGLM разработки Университета Цинхуа в Китае. Все они справились с ответами на запросы с фразами из книг о Гарри Поттере писательницы Джоан Роулинг. Разница в ответах могла заключаться лишь в одном-двух словах. «Все большие языковые модели выдавали текст, который больше напоминал защищённый авторским правом контент, чем случайно сгенерированный текст», — говорят исследователи.

По их мнению, обновление ChatGPT позволит оградить защищённый контент от пользователей, которые специально хотят его извлечь при помощи запросов.

Ранее два американских писателя подали в суд на компанию OpenAI за использование их произведений для обучения ИИ. Позднее ещё три автора в США подали два коллективных иска к OpenAI и Meta. Они заявили, что нейросети ChatGPT и LLaMA обучались на наборах данных из пиратских библиотек, таких как Bibliotik, Library Genesis и Z-Library.

Между тем датская группа по борьбе с пиратством Rights Alliance добилась удаления известного набора данных Books3, который использовался для обучения высококлассных моделей ИИ.

Meta Platforms*, а также принадлежащие ей Facebook** и Instagram**:
* признана экстремистской организацией, её деятельность в России запрещена;
** запрещены в России.

Теги:
Хабы:
Всего голосов 5: ↑5 и ↓0+5
Комментарии10

Другие новости

Истории

Работа

Data Scientist
65 вакансий

Ближайшие события

28 ноября
Конференция «TechRec: ITHR CAMPUS»
МоскваОнлайн
2 – 18 декабря
Yandex DataLens Festival 2024
МоскваОнлайн
11 – 13 декабря
Международная конференция по AI/ML «AI Journey»
МоскваОнлайн
25 – 26 апреля
IT-конференция Merge Tatarstan 2025
Казань