Элизабет Лайон и ряд других писателей предъявили иск к Adobe, обвинив её в использовании пиратских версий многочисленных книг для обучения системы искусственного интеллекта SlimLM.

Как и практически все остальные технологические компании, Adobe в последние несколько лет активно внедряет ИИ. С 2023 года компания запустила ряд различных сервисов на базе ИИ, включая набор инструментов Firefly.
Adobe описывает SlimLM как набор малых языковых моделей, которые можно оптимизировать для работы с документами на мобильных устройствах. Компания указывает, что SlimLM была предварительно обучена на SlimPajama-627B — «дедуплицированном многокорпусном наборе данных с открытым исходным кодом», выпущенном компанией Cerebras в июне 2023 года.
Лайон настаивает, что некоторые её работы вошли датасет, который использовала Adobe.
«Набор данных SlimPajama был создан путём копирования и манипулирования датасетом RedPajama (включая копирование Books3). Таким образом, поскольку он представляет собой производную копию набора данных RedPajama, SlimPajama содержит набор данных Books3, включая защищённые авторским правом произведения истца и членов группы истцов», — следует из коллективного иска.
Book3 — это коллекция из 191 тыс. книг, использованных для обучения систем генеративного ИИ. Она постоянно создаёт юридические проблемы для технологического сообщества. RedPajama также фигурировал в ряде судебных исков. В сентябре Apple обвинили в использовании этого датасета для обучения Apple Intelligence без указания авторства и выплат компенсаций. Спустя месяц на аналогичных основаниях обвинили Salesforce.
Осенью Anthropic согласилась выплатить $1,5 млрд ряду авторов. Последние обвинили компанию в использовании пиратских книг для обучения модели, лежащей в основе чат-бота Claude. Летом этого года Anthropic призналась, что выкупала и сканировала, а затем уничтожала миллионы физических книг для обучения ИИ-моделей.
