OpenAI придется раскрыть, как она обучала GPT-модели на пиратских книгах / Хабр

Федеральный судья Она Ванг в Нью-Йорке обязала OpenAI раскрыть внутренние переписки с юристами о том, почему были удалены два набора данных с пиратскими книгами из теневой библиотеки LibGen. Решение было принято в рамках судебного дела, в котором OpenAI обвиняют в обучении моделей серии GPT на книгах без получения разрешений от их авторов.

Истцы из Authors Guild и группа известных писателей — среди них Джордж Мартин и Джон Гришэм — утверждают, что еще в 2018 году сотрудник OpenAI скачал массив LibGen, из которого собрали два набора Books1 и Books2. Эти наборы, в которых могло быть свыше 100 000 книг, использовали для обучения GPT-3 и GPT-3.5. Затем в 2022 году, за год до первых исков, Books1 и Books2 тихо удалили — в OpenAI утверждают, что датасетами просто перестали пользоваться и они стали не нужными. Судья отмечает, что это вообще единственные обучающие наборы, которые компания когда-либо удаляла.

Когда в ходе раскрытия доказательств авторы попытались выяснить, почему именно эти наборы исчезли, OpenAI начала ссылаться на адвокатскую тайну. Сначала компания допускала обсуждение мотивов удаления и публично писала на судейской электронной карточке, что файлы удалены "из-за неиспользования", но позже заявила, что все причины удаления являются привилегированной информацией и обсуждать их нельзя. Ванг в своем решении подчеркивает, что OpenAI одновременно настаивает на "добросовестности" (то есть отсутствии умысла) и блокирует доступ к документам, по которым можно проверить эту добросовестность, а такие "двойные стандарты" лишают компанию привелегии прикрываться адвокатской тайной.

С учетом этого суд обязал OpenAI выдать целый пласт внутренней документации. В перечень входят уже просмотренные судом письма и сообщения, все письменные коммуникации с внутренними юристами о причинах удаления Books1 и Books2, а также любые внутренние упоминания LibGen, которые раньше скрывали в материалах дела. Отдельно судья указывает на Slack-канал excise-libgen / project-clear, где сотрудники обсуждали, как именно вычищать данные LibGen из инфраструктуры OpenAI.

Для OpenAI это решение опасно тем, что вскрытые письма и чаты могут показать не только масштаб использования пира��ских книг, но и то, насколько рано руководство понимало юридические риски и пыталось ли "подчистить следы". Если из переписки будет видно, что компания осознанно шла на нарушение, это усилит позицию авторов, которые добиваются признания умышленного нарушения и, как следствие, максимальных компенсаций. Похожая история уже произошла в деле Bartz v. Anthropic, где суд признал оцифровку законно купленных книг допустимым «добросовестным использованием», но отдельно указал, что создание внутренней библиотеки из миллионов пиратских книг с LibGen и других теневых ресурсов — прямое нарушение, не прикрываемое доктриной fair use; на фоне риска колоссальных убытков компания пошла на мировое соглашение примерно на 1,5 млрд долларов и обязалась удалить все пиратские копии из своих систем.

P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.

OpenAI придется раскрыть, как она обучала GPT-модели на пиратских книгах

Другие новости

Ближайшие события