OpenAI, Anthropic и Google будут вместе бороться с галлюцинациями ИИ / Хабр

Thomson Reuters через свое исследовательское подразделение Labs создала Trust in AI Alliance — альянс, в который вошли старшие инженеры и продуктовые руководители Anthropic, OpenAI, Google Cloud и AWS. Цель — разработать общие принципы для создания надежных агентных ИИ-систем.

Проблема в том, что агентный ИИ не просто отвечает на вопросы — он автономно принимает решения и действует. Если обычная языковая модель галлюцинирует, пользователь получает разовую ошибку. Если галлюцинирует агент, он действует на основе ложной информации и может накапливать ошибки в цепочке решений — каждый следующий шаг усугубляет предыдущий.

Компании уже исследуют галлюцинации по отдельности. OpenAI в сентябре 2025 года выпустила исследование, объясняющее, что модели галлюцинируют из-за системы оценки, которая вознаграждает угадывание, а не признание неуверенности. Anthropic обнаружила в Claude внутренние "цепи отказа": механизм, который по умолчанию заставляет модель молчать, если она не уверена в ответе — вопрос в том, почему в некоторых случаях он не срабатывает.

Thomson Reuters зарабатывает на продуктах для юристов, налоговиков и финансистов — профессий, где галлюцинации ИИ могут стоить карьеры или судебного иска. Участники альянса планируют делиться опытом, выявлять общие проблемы и работать над "встраиванием доверия" в архитектуру ИИ-систем. Результаты и ключевые выводы обещают публиковать открыто. Первая сессия посвящена инженерии доверия в агентных системах для высокорисковых профессиональных сред.

P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.

OpenAI, Anthropic и Google будут вместе бороться с галлюцинациями ИИ

Другие новости

Ближайшие события