OpenAI обучила ChatGPT не выдавать защищённый копирайтом контент / Хабр

ByteDance провела исследование, которое посвящено обучению различных языковых моделей для повышения точности их ответов. В нём сообщается, что OpenAI попыталась скрыть использование защищённых авторским правом книг в этом процессе.

Исследователи выяснили, что чат-бот ChatGPT уходит от ответа на пользовательские запросы, где есть фразы из защищённых копирайтом материалов. Это происходит, например, тогда, как когда человек задаёт предложение из книги и просит чат-бота продолжить повествование. Предыдущие версии ChatGPT без проблем выполняли эту задачу.

«Мы полагаем, что разработчики ChatGPT внедрили механизм для определения, когда пользователь стремится вытянуть защищённый авторским правом контент или проверить сходство между сгенерированным ответом и контентом, защищённым авторским правом», — говорят исследователи.

Тем не менее, так происходит не всегда.

Исследователи проверяли различные версии ChatGPT, OPT-1.3B от Meta*, FLAN-T5 от Google, DialoGPT от Microsoft и ChatGLM разработки Университета Цинхуа в Китае. Все они справились с ответами на запросы с фразами из книг о Гарри Поттере писательницы Джоан Роулинг. Разница в ответах могла заключаться лишь в одном-двух словах. «Все большие языковые модели выдавали текст, который больше напоминал защищённый авторским правом контент, чем случайно сгенерированный текст», — говорят исследователи.

По их мнению, обновление ChatGPT позволит оградить защищённый контент от пользователей, которые специально хотят его извлечь при помощи запросов.

Ранее два американских писателя подали в суд на компанию OpenAI за использование их произведений для обучения ИИ. Позднее ещё три автора в США подали два коллективных иска к OpenAI и Meta. Они заявили, что нейросети ChatGPT и LLaMA обучались на наборах данных из пиратских библиотек, таких как Bibliotik, Library Genesis и Z-Library.

Между тем датская группа по борьбе с пиратством Rights Alliance добилась удаления известного набора данных Books3, который использовался для обучения высококлассных моделей ИИ.

_{Meta Platforms*, а также принадлежащие ей Facebook** и Instagram**:
* признана экстремистской организацией, её деятельность в России запрещена;
** запрещены в России.}