Search
Write a publication
Pull to refresh

Как OpenAI передаёт ИИ «голос общества»: итоги коллективного эксперимента

Level of difficultyMedium
Reading time3 min
Views764

OpenAI представила результаты масштабного исследования, в котором более тысячи человек со всего мира оценивали поведение языковых моделей в этически сложных ситуациях. Это часть программы по так называемой «коллективной настройке» (collective alignment), цель которой — приблизить ответы ИИ к общественным ожиданиям.

Когда пользователь спрашивает ChatGPT о политике, религии или этике — модель старается быть нейтральной. Но что считать «нейтральностью»? Где заканчивается осторожность и начинается цензура? До недавнего времени такие решения принимались исключительно внутри команды OpenAI. Теперь начали спрашивать общество.

Коллективная настройка — попытка сделать поведение модели более прозрачным и соотносимым с разными социальными и культурными нормами.

📊 Как проходило исследование

OpenAI организовала опрос, в котором 1 012 участников из разных стран оценивали поведение модели в 1 078 ситуациях. Участникам предлагалось прочитать запрос к модели и четыре варианта ответа, после чего нужно было выбрать наилучший.

Глобальный охват исследования
Глобальный охват исследования

Примеры тем:

  • обсуждение религии;

  • просьбы о создании эротического контента;

  • моральные дилеммы;

  • споры о правах, идентичности, культуре.

Всего было собрано 18 384 пользовательских оценок. Эти данные легли в основу датасета Collective Alignment 1 (CA-1), который OpenAI опубликовала в открытом доступе.

Структура датасета:

  • comparisons.jsonl — пары «запрос + ответы + пользовательские оценки»;

  • annotators.jsonl — демографические данные участников;

  • merged_comparisons_annotators.jsonl — объединённый набор для анализа.

Датасет доступен на 🤗 HuggingFace

🧠 Что такое Model Spec

Model Spec — это спецификация поведения моделей OpenAI, своего рода внутренний «кодекс» ИИ. Он определяет, как модель должна отвечать на спорные вопросы, где нет единственно верного ответа.

Примеры принципов:

  • сохранять уважительную, но нейтральную позицию;

  • не высказывать собственных оценочных суждений;

  • избегать генерации контента для взрослых (в том числе по запросу);

  • поддерживать общедоступную, а не индивидуальную трактовку фактов.

Исследование было направлено на то, чтобы выяснить: насколько эти правила соответствуют мнению пользователей? И если не соответствуют, то готовы ли разработчики их пересматривать?

🔁 Что изменилось по итогам

OpenAI классифицировала все полученные оценки по трём категориям:

1. Уточнения

Мнения участников совпадали с действующей Model Spec, но формулировки оказались недостаточно чёткими. Эти положения были переработаны и дополнены.

2. Изменения

Некоторые оценки прямо противоречили текущим правилам. Например, значительная часть респондентов поддержала идею, что ИИ может создавать откровенный текст для взрослых (при соответствующих ограничениях). Эти вопросы были признаны спорными и отложены для дальнейших обсуждений.

3. Нереализованные предложения

Некоторые запросы не были внедрены, либо по техническим причинам, либо из-за несоответствия базовым ценностям OpenAI (например, политической нейтральности).

🧩 Как это влияет на разработчиков

Во-первых, это публичный этический прецедент: крупная ИИ-компания делегирует часть этических решений широкой аудитории.

Во-вторых, открытый датасет даёт возможность другим лабораториям и исследователям обучать ранжировщики, сравнивать поведение моделей, или анализировать, как люди воспринимают моральные дилеммы.

Для компаний, которые интегрируют LLM в продукты, это важный сигнал:

  • Пользовательские предпочтения можно (и нужно) учитывать в настройке моделей.

  • Этика — это не только фильтры, но и обоснованные принципы, подкреплённые общественным доверием.

  • Модели будущего должны адаптироваться не к одному «вселенскому стандарту», а к разным культурам, рынкам и контекстам.

⚠ Ограничения подхода

OpenAI честно признаёт ряд проблем:

  • Model Spec Ranker (модель, которая оценивает соответствие ответов принципам) - сам по себе ИИ, а не идеальный судья;

  • ответы участников могли зависеть от формулировки, контекста и интерфейса;

  • выборка всего 1000+ человек, хоть и разнообразных по полу, возрасту и географии;

  • обсуждались примеры, а не абстрактные принципы, а это создаёт разрыв между частным и общим.

📎 Что в итоге

OpenAI сделала шаг в сторону демократизации настройки ИИ, и пусть он неидеален, но важен. Коллективная настройка - это попытка приблизить работу моделей к реальным ожиданиям пользователей. Она открывает путь к этически устойчивому и общественно приемлемому ИИ, в котором слышен не только голос разработчиков, но и голос людей.

🔗 Полезные ссылки

Tags:
Hubs:
-1
Comments5

Articles