OpenAI транскрибировала более миллиона часов видео с YouTube для обучения GPT-4 / Хабр

OpenAI расшифровала более миллиона часов видео с YouTube для обучения GPT-4, пишет New York Times. Для этого компания использовала инструмент распознавания речи Whisper.

Ранее на этой неделе Wall Street Journal писала, что OpenAI намерена использовать транскрипции роликов с YouTube для обучения грядущей GPT-5. Источники газеты отмечали, что разработчик применял расшифровки контента с видеохостинга Google при работе над GPT-4, которая вышла в марте прошлого года.

В 2021 году OpenAI столкнулась с нехваткой данных из авторитетных англоязычных источников в интернете. Тогда же компания создала Whisper, работающий на архитектуре нейросети Transformer.

Некоторые сотрудники OpenAI полагали, что это будет противоречить правилам YouTube, поскольку Google запрещает использование роликов вне работы над видеохостингом. Команда расшифровала более миллиона часов видео с YouTube. В этом исследовании участвовал соучредитель и технический директор OpenAI Грег Брокман, который лично отбирал видео, указывают источники NYT. Также он указан как один из создателей Whisper.

Исследование издания демонстрирует, что технологические компании, включая OpenAI, Google и Meta*, в ряде случаев игнорировали корпоративную политику и пытались обойти закон, чтобы получить больше данных.

Google также делала транскрипции видео с YouTube для собственных моделей искусственного интеллекта, поделились собеседники NYT. Действия компании потенциально нарушают авторские права создателей используемого контента. Однако в прошлом году Google расширила правила обслуживания, позволив себе использовать общедоступные данные из «Документов», «Карт» и других собственных сервисов.

В конце прошлого года сама NYT подала в суд на OpenAI и Microsoft, обвинив компании в незаконном использовании информации из публикаций. В ответ OpenAI сообщила, что газета взломала ChatGPT для того, чтобы подать иск.

Исследовательский институт Epoch указывает, что высококачественные данные, которые наиболее ценны для обучения ИИ-моделей, могут закончиться в 2026 году. Компании используют данные быстрее, чем они производятся.

В OpenAI также рассматривали возможность покупки стартапов, которые собирают большие объёмы данных, пишет NYT.

Некоторые сотрудники Google знали, что OpenAI использовала расшифровки видео с YouTube. Однако Google не предъявила обвинения OpenAI, поскольку сама незаконно использовала контент, защищённый авторским правом. Представитель Google Мэтт Брайант заверил, что компании было ничего не известно о методах OpenAI.

_{Meta Platforms*:
* признана экстремистской организацией, её деятельность в России запрещена;}