Издатели отозвали 80 миллиардов обучающих токенов из Google DeepMind, но Google по-прежнему использует их контент для обучения ИИ поиску. Google использует контент со всего интернета для обучения своих моделей искусственного интеллекта для поиска, даже если владельцы сайтов прямо говорят «нет». Об этом заявил Эли Коллинз, вице-президент Google DeepMind, во время слушаний в суде Вашингтона, согласно Bloomberg.

Текущая система отказа от использования контента издателями распространяется только на DeepMind, исследовательское подразделение Google, занимающееся искусственным интеллектом и обучающее модели Gemini. Другие подразделения Google, в том числе команда, отвечающая за веб-поиск, по-прежнему могут использовать этот контент для своих собственных систем искусственного интеллекта.
Во время слушаний Диана Агилар из Министерства юстиции США спросила: «Как только вы возьмёте модель Gemini AI и поместите её в поисковую систему, поисковая система сможет обучаться на данных, от которых отказались издатели, верно?» Коллинз ответил: «Верно — для использования в поиске».
Google использует эти данные для поддержки таких функций поиска, как «AI-обзоры», которые отображают ответы, сгенерированные ИИ, непосредственно над традиционными результатами поиска. Это ставит Google в прямое конкурентное положение с владельцами веб-сайтов, поскольку пользователи могут получать ответы, не переходя на сайты, контент которых использовался для их генерации.
Во внутреннем документе Google, датированном летом 2024 года, перечислено 160 миллиардов токенов, или коротких фрагментов текста, которые изначально предназначались для обучения ИИ. Из них 80 миллиардов токенов были удалены, поскольку они были получены от издателей, отказавшихся от участия.
Но, судя по показаниям Коллинза, эти данные по-прежнему используются для обучения ИИ Google, но не напрямую DeepMind. На практике Google использует эти данные в других подразделениях компании, несмотря на то, что издатели пытались заблокировать все тренинги Google по искусственному интеллекту.
Эти подробности стали известны в рамках продолжающегося антимонопольного дела против Google в федеральном суде. Министерство юстиции США настаивает на том, чтобы Google продала браузер Chrome и перестала платить производителям оборудования и приложений за то, чтобы они устанавливали Google в качестве поисковой системы по умолчанию. Министерство юстиции США заявляет, что эти ограничения должны распространяться и на продукты Google с искусственным интеллектом, включая Gemini, поскольку они извлекают выгоду из той же монополии на поиск.
Если ведущим лабораториям в области ИИ понадобятся высококачественные обучающие данные для поддержания хорошей работы их моделей, может возникнуть рынок для такого рода контента. Но это противоречит нынешней практике сбора свободно доступного контента из интернета, что часто оправдывается как «добросовестное использование». Недавно судья в США отклонил эту защиту в деле с участием Meta*.
*Meta и её продукты (Instagram, Facebook) запрещены на территории Российской Федерации