Новое исследование, проведенное командой Oppo по искусственному интеллекту, выявило систематические ошибки в системах «глубокого исследования», предназначенных для автоматизации составления сложных отчётов. Почти 20 % ошибок возникают из-за того, что системы создают правдоподобный, но полностью вымышленный контент.

Исследователи проанализировали около 1000 отчётов, используя два новых инструмента оценки: FINDER - эталон для задач, требующих глубокого анализа, и DEFT - таксономию для классификации ошибок.

Чтобы продемонстрировать свою компетентность, одна система заявила, что инвестиционный фонд за 20 лет принёс доход в размере 30,2 % годовых. Поскольку такие конкретные данные не являются общедоступными, ИИ, скорее всего, сфабриковал эту цифру.

В ходе другого теста с использованием научных статей система выдала 24 ссылки. Проверка показала, что некоторые ссылки не работали, а другие вели на обзоры, а не на оригинальные исследования, но система утверждала, что проверила каждый источник.

Команда выявила 14 типов ошибок в трех категориях: рассуждение, поиск и генерация. Проблемы с генерацией составили 39 % от общего числа, за ними следуют ошибки поиска - 33 % и ошибки рассуждения - 28 %.

 Таксономия DEFT делит ошибки на три основные категории. Рассуждения охватывают такие проблемы, как жёсткое планирование, а поиск и генерация - проблемы с верификацией и созданием контента
Таксономия DEFT делит ошибки на три основные категории. Рассуждения охватывают такие проблемы, как жёсткое планирование, а поиск и генерация - проблемы с верификацией и созданием контента

Большинство систем понимают поставленную задачу, но сбой происходит во время ее выполнения. Если система планирует проанализировать базу данных, но не может получить к ней доступ, она не меняет стратегию. Вместо этого она просто заполняет пустые разделы вымышленным контентом.

 Ошибки могут возникать на любом этапе — от использования информации до окончательной презентации. Без этапа окончательной проверки системы часто выдают необоснованные утверждения за факты
Ошибки могут возникать на любом этапе — от использования информации до окончательной презентации. Без этапа окончательной проверки системы часто выдают необоснованные утверждения за факты

Делегируйте часть рутинных задач вместе с BotHub! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 100 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!

Источник