Как стать автором
Обновить
3046.79
RUVDS.com
VDS/VPS-хостинг. Скидка 15% по коду HABR15

Картель влиятельных датасетов в обучении ИИ

Уровень сложностиПростой
Время на прочтение8 мин
Количество просмотров2.7K


В последнее время такие компании, как OpenAI и Google, заключают эксклюзивные соглашения об обмене данными с издателями, крупными форумами вроде Reddit и социальными медиаплатформами, что становится для них ещё одним способом сконцентрировать власть.

Такая тенденция выгодна крупнейшим игрокам на рынке ИИ, которые могут позволить себе такие сделки, в отличие от исследователей, некоммерческих организаций и небольших компаний. Крупнейшие корпорации располагают лучшими ресурсами для сбора датасетов. В результате эталонные датасеты для бенчмарков (и для обучения) моделей ИИ всё больше концентрируются в руках малого количества корпораций и академических учреждений.

По мнению некоторых исследователей, это «новая волна асимметричного доступа», которой ещё не было в истории открытого интернета в таком масштабе.

Откуда берутся данные


Чтобы обучить модель, требуются огромные объёмы данных. И от содержания этих датасетов зависит итоговый результат. Но проблема в том, что даже сами разработчики и исследователи ИИ не очень хорошо знают об источниках данных для этих датасетов. Массивные наборы данных часто не имеют чёткой информации, откуда они взялись.

В рамках инициативы Data Provenance Initiative коллектив более 50 исследователей из академических кругов и коммерческих компаний постарался исправить ситуацию. Они проверили почти 4000 публичных датасетов за три десятилетия и опубликовали результаты.


Количественная оценка аудита, включая общее число наборов данных (#), их размер в токенах или часах, источники, организации-создатели, страны, языки, задачи и лицензии

В общей сложности проверено 3916 наборов данных от 659 организаций в 67 странах, объём которых составляет 2,1 трлн токенов и 1,9 млн часов. Авторы каталогизировали почти 798 уникальных источников, 443 задачи и 55 лицензий.

Выводы свидетельствуют о тревожной тенденции: практика использования данных ИИ рискует сконцентрировать власть в руках нескольких доминирующих технологических компаний.

В начале 2010-х наборы данных поступали из самых разных источников, говорит Шейн Лонгпре (Shayne Longpre), исследователь из Массачусетского технологического института, участвующий в проекте. Они поступали не только из энциклопедий и интернета, но и из таких источников, как стенограммы заседаний парламента, стенограммы телефонных разговоров, прогнозы погоды. В те времена датасеты для ИИ специально курировались и собирались из разных источников для решения отдельных задач.

Затем в 2017 году изобрели трансформеры — архитектуру, которая лежит в основе языковых моделей, — и оказалось, что производительность LLM напрямую зависит от размера модели и наборов данных. Сегодня большинство датасетов для ИИ создаётся путём беспорядочного сбора материала из интернета.

С 2018 года интернет стал доминирующим источником для всех типов данных, включая аудио, изображения и видео. Возник и увеличился разрыв между данными из интернета и датасетами на основе ручного отбора.

Потребность в масштабе также способствовала массовому использованию синтетических данных.


Совокупный объём данных (в логарифмическом масштабе для текста, в часах для речи/видео) из каждой категории источников, по всем модальностям. Категории источников в легенде упорядочены по убыванию количества

Среди речевых и видеоисточников всё больше преобладают интернет-видео и YouTube. В то же время среди текстовых источников преобладают веб-источники или источники, основанные на энциклопедиях (вики), при этом всё более популярными становятся синтетические тексты.

В следующей таблице (под спойлером) показаны источники текстовых коллекций. Свойства включают количество наборов данных, задач, языков и текстовых доменов. В столбце «Источник» указано содержание коллекции: созданный человеком текст в вебе, выдачу языковой модели или и то и другое. Последний столбец указывает, содержит ли коллекция данные, которые можно использовать в коммерческих целях (синий кружок), только в некоммерческих целях и для академических исследований (красный), а также данные, чей лицензионный статус не указан достаточно точно (жёлтый). Наконец, столбец OAI указывает на коллекции, включающие поколения моделей OpenAI. Наборы данных отсортированы в хронологическом порядке, чтобы подчеркнуть тенденции во времени:

Коллекции текстовых данных

Коллекции видеоданных

Коллекции звуковых данных

За последние несколько лет появились мультимодальные генеративные модели ИИ, которые могут генерировать видео и изображения. Как и большим языковым моделям, им нужно как можно больше данных, и лучшим источником для этого стал YouTube.

Для видеомоделей более 70% данных как для речи, так и для изображений поступает из одного источника — от компании Alphabet, которой принадлежит YouTube.

В то время как текст распределён по всему интернету и контролируется множеством различных сайтов и платформ, видеоданные чрезвычайно сконцентрированы на одной платформе. Исследователи из Data Provenance Initiative видят здесь проблему, поскольку «это даёт огромную концентрацию власти над наиболее важными данными в руках одной компании».

А поскольку Google также разрабатывает собственные модели ИИ, её огромное преимущество также вызывает вопросы, каким образом компания сделает эти данные доступными для конкурентов.

Картель влиятельных датасетов


Компании, занимающиеся разработкой ИИ, обычно не сообщают, какие данные они использовали для обучения своих моделей. Одна из причин в том, что они хотят защитить свои конкурентные преимущества. Другая причина в том, что из-за сложного и непрозрачного способа объединения и распространения датасетов они и сами часто не знают, откуда взялись все эти данные.

Они также, вероятно, не имеют полной информации о каких-либо ограничениях на использование или распространение этих данных. Например, к наборам данных часто прилагаются ограничительные лицензии или условия, которые должны ограничивать их использование, например, в коммерческих целях. Так что никогда нельзя быть уверенным, что вы не обучали модель на данных, защищённых авторским правом.


Распределение ограничений на датасеты и их источников. Сверху указан процент по количеству датасетов, а снизу по общему количеству токенов или часов, источник

По этим данным можно сделать два основных вывода:

  1. В датасетах с коммерческими лицензиями, в среднем, больше лексем и часов.
  2. Подавляющее большинство коммерческих датасетов не дублируют лицензии своих (свободных) источников.

Практики сбора и подготовки наборов данных привели к тому, что сейчас в машинном обучении доминирует «картель влиятельных датасетов», как это громко называют некоторые отраслевые издания:



Учёные из Калифорнийского университета и Google Research в 2022 году опубликовали исследование датасетов для бенчмаркинга на данных открытого проекта Papers With Code (PWC). Они изучили использование датасетов в разных сообществах машинного обучения с 2015 по 2020 г.

Исследователи обнаружили:

  • растущую концентрацию на всё меньшем количестве наборов данных внутри сообществ,
  • значительное заимствование наборов данных из других задач,
  • концентрацию всей области на наборах данных, которые представлены исследователями из небольшого количества элитных институтов.


Карта использования датасетов за последние десять лет. Критерием включения является наличие учреждения или компании, на долю которой приходится более 50% известных случаев использования. Справа показан коэффициент Джини для концентрации наборов данных с течением времени как для учреждений, так и для датасетов, источник

Среди доминирующих учреждений, которые контролируют датасеты для бенчмаркинга — Стэнфордский университет, Microsoft, Принстон, Facebook, Google, Институт Макса Планка и AT&T. Четыре из десяти крупнейших источников данных — это корпорации.

Увеличение коэффициента Джини означает большую концентрацию на меньшем количестве датасетов, что явно видно на следующих диаграммах из упомянутого исследования:



Вот коэффициент Джини по отдельным тематическим областям машинного обучения, в части использования (сверху) и создания (снизу) датасетов, по статистике задач PWC:



По мнению авторов, обнаруженный дисбаланс имеет прямые последствия для научной оценки, этики ИИ и равенства/доступа в этой области:

«В целом по области бенчмаркинг в значительной степени сконцентрирован на небольшом количестве наборов данных для каждого сообщества задач и в значительной степени сконцентрирован на наборах данных, полученных от небольшого числа хорошо обеспеченных ресурсами учреждений. Мы также обнаружили, что многие эталонные датасеты перетекают между несколькими целевыми сообществами и используются для оценки прогресса в решении задач, для которых эти данные не были специально разработаны. Надеемся, что этот анализ послужит основой для общественной инициативы по изменению моделей разработки и использования наборов данных, чтобы обеспечить более строгих, этичных и социально обоснованных исследований».

Культурная асимметрия


Есть ещё одна степень ассиметричности датасетов — ориентированность на западный мир. Более 90% наборов данных, которые проанализировали исследователи Data Provenance Initiative, поступили из Европы и Северной Америки. Для сравнения, менее 4% поступило из Африки. Таким образом, наборы данных отражают только одну часть нашего мира и нашей культуры, но совершенно не учитывают другие.

Интернет по-прежнему более чем на 90% состоит из английского языка, и на Земле ещё много мест с плохим интернетом. Культурная асимметрия объясняется также удобством, потому что составление датасетов на других языках и с учётом других культур требует сознательного намерения и большой работы.

Западная направленность датасетов становится очевидной при использовании мультимодальных моделей. Например, когда модель просят ответить на вопрос, как выглядит и звучит свадьба, она может представить только западные свадьбы, потому что только на них она обучалась.

Это усиливает предубеждения и может привести к тому, что модели ИИ будут формировать определённое мировоззрение, ориентированное на США, отбрасывая другие языки и культуры, считают исследователи.

Текстовая информация заканчивается?


По мнению некоторых специалистов, датасеты для обучения моделей уже включили в себя почти всю текстовую информацию, доступную и в открытом интернете и в «тёмном вебе», то есть во всех БД и источниках, недоступных для индексации поисковыми системами, включая пиратские книги, диалоги из фильмов по базе субтитров и др. Возможно, они даже проиндексировали все личные диалоги пользователей из мессенджеров и соцсетей. Хотя пока никто не признался в этом, но со стороны корпораций глупо не взять для обучения своих ИИ твиты и комментарии из Facebook, X, YouTube, WhatsApp, Instagram и прочих приложений.

Есть мнение, что теперь даже текстовым моделям придётся обучаться на видеороликах, которых в интернете гораздо больше, чем текста.

В одном только тиктоке публикуется примерно 142 626 видеороликов в минуту — теоретически, это почти бесконечный массив данных для обучения.

В любом случае, создание новых датасетов усилит централизацию источников данных для обучения ИИ, поскольку собирать эти данные проще корпорациям, обладающим ресурсами: «Мы полагаем, что такая динамика создаёт эффект Матфея, когда “богатые становятся богаче, а бедные — беднее”, при котором успешные эталонные бенчмарки и элитные институты, которые их внедряют, приобретают огромный авторитет в данной области», — пишут исследователи.

Что ещё хуже, учёные перестали формулировать новые проблемы, если их нельзя решить с помощью существующих датасетов для оценки. Все разработчики думают о том, чтобы получить оценку state-of-the-art (SOTA) и попасть в существующие рейтинги. Это ограничивает радикальные инновации.

Наконец, чрезмерное использование одинаковых бенчмарков приводит к переобучению, когда модель лучше решает синтетические задачи на этом наборе данных, а не в реальном мире.

Многие видные исследователи в области ИИ, включая Эндрю Ына (Andrew Ng), призывают к увеличению разнообразия и курации датасетов, но этому мешает существующая зависимость индустрии от SOTA-результатов и устоявшихся наборов данных.

© 2025 ООО «МТ ФИНАНС»

Telegram-канал со скидками, розыгрышами призов и новостями IT 💻
Теги:
Хабы:
+36
Комментарии0

Публикации

Информация

Сайт
ruvds.com
Дата регистрации
Дата основания
Численность
11–30 человек
Местоположение
Россия
Представитель
ruvds