OpenAI расшифровала более миллиона часов видео с YouTube для обучения GPT-4, воспользовавшись лазейкой в законе об авторском праве. Компания использовала свою модель транскрипции аудио Whisper. Президент OpenAI Грег Брокман лично участвовал в сборе видео.
Представитель OpenAI Линдси Хелд сообщила, что компания использует «многочисленные источники, включая общедоступные данные и партнёрские отношения», а также изучает возможность создания собственных синтетических данных.
Представитель Google Мэтт Брайант отметил, что «как файлы robots.txt, так и Условия обслуживания запрещают несанкционированное сканирование или загрузку контента YouTube». По его словам, Google принимает «технические и юридические меры» для предотвращения такого использования. При этом сама компания обучала свои модели «на некотором контенте YouTube в соответствии с соглашениями с авторами».
В статье The New York Times говорится, что OpenAI исчерпала запасы полезных данных в 2021 году. К тому времени она обучила модели на данных, которые включали компьютерный код из Github, базы данных шахматных ходов и материалы школьных заданий из Quizlet. Эксперты считают, что запас доступного для обучения контента иссякнет к 2028 году. После этого оно будет производиться на синтетических данных, созданных другим ИИ. Эксперты допускают, что некоторые компании также могут преднамеренно пойти на нарушение авторских прав.