Как стать автором
Обновить
396.51
BotHub
Агрегатор нейросетей: ChatGPT, Claude, Midjourney

Новые модели рассуждений AI от OpenAI галлюцинируют больше

Время на прочтение3 мин
Количество просмотров2.8K

Недавно выпущенные OpenAI модели искусственного интеллекта o3 и o4-mini являются передовыми во многих отношениях. Однако новые модели все еще галлюцинируют или выдумывают — на самом деле, они галлюцинируют больше, чем некоторые старые модели OpenAI.

Галлюцинации оказались одной из самых больших и сложных проблем для решения в области AI, влияя даже на самые эффективные сегодняшние системы. Исторически каждая новая модель немного улучшалась в отделе галлюцинаций, галлюцинируя меньше, чем ее предшественница. Но, похоже, это не относится к o3 и o4-mini.

Согласно внутренним тестам OpenAI, o3 и o4-mini, которые являются так называемыми моделями рассуждений, галлюцинируют чаще, чем предыдущие модели рассуждений компании — o1, o1-mini и o3-mini, — а также традиционные «нерассуждающие» модели OpenAI, такие как GPT-4o.

Но, пожалуй, еще большее беспокойство вызывает тот факт, что создатель ChatGPT на самом деле не знает, почему это происходит. В своем техническом отчете для o3 и o4-mini OpenAI пишет, что «необходимы дополнительные исследования», чтобы понять, почему галлюцинации ухудшаются по мере масштабирования моделей рассуждений. O3 и o4-mini работают лучше в некоторых областях, включая задачи, связанные с кодированием и математикой. Но поскольку они «делают больше заявлений в целом», они часто делают «как более точные заявления, так и более неточные/галлюцинаторные заявления», согласно отчету.

OpenAI обнаружила, что o3 галлюцинировал в ответ на 33% вопросов в PersonQA, внутреннем тесте компании для измерения точности знаний модели о людях. Это примерно вдвое превышает частоту галлюцинаций предыдущих моделей рассуждений OpenAI, o1 и o3-mini, которые набрали 16% и 14,8% соответственно. O4-mini показал себя еще хуже в PersonQA — галлюцинировал 48% времени.

Стороннее тестирование Transluce, некоммерческой исследовательской лаборатории AI, также обнаружило доказательства того, что o3 имеет тенденцию придумывать действия, которые он предпринимал в процессе получения ответов. В одном примере Transluce наблюдал, как o3 утверждал, что он запускал код на MacBook Pro 2021 года «вне ChatGPT», а затем копировал числа в свой ответ. Хотя у o3 есть доступ к некоторым инструментам, он не может этого сделать.

«Наша гипотеза заключается в том, что тип обучения с подкреплением, используемый для моделей O-серии, может усилить проблемы, которые обычно смягчаются (но не устраняются полностью) стандартными конвейерами постобучения», — сказал Нил Чоудхури, исследователь Transluce и бывший сотрудник OpenAI, в электронном письме TechCrunch.

Сара Шветтман, соучредитель Transluce, добавила, что частота галлюцинаций от o3 может сделать его менее полезным, чем он мог бы быть.

Киан Катанфоруш, внештатный профессор Стэнфорда и генеральный директор стартапа Workera, занимающегося повышением квалификации, рассказал TechCrunch, что его команда уже тестирует o3 в своих рабочих процессах кодирования и что они обнаружили, что это на шаг впереди конкурентов. Однако Катанфоруш говорит, что o3 имеет тенденцию галлюцинировать неработающие ссылки на веб-сайты. Модель предоставит ссылку, которая при нажатии не будет работать.

Галлюцинации могут помочь моделям прийти к интересным идеям и быть креативными в своем «мышлении», но они также делают некоторые модели сложными для продажи компаниям на рынках, где точность имеет первостепенное значение. Например, юридическая фирма вряд ли будет довольна моделью, которая вставляет множество фактических ошибок в клиентские контракты.

Одним из перспективных подходов к повышению точности моделей является предоставление им возможностей веб-поиска. GPT-4o от OpenAI с веб-поиском достигает  90% точности  на SimpleQA, еще одном тесте точности OpenAI. Потенциально поиск также может улучшить показатели галлюцинаций моделей рассуждений — по крайней мере, в случаях, когда пользователи готовы предоставлять подсказки стороннему поставщику поиска.

Если масштабирование моделей рассуждений действительно продолжит ухудшать галлюцинации, это сделает поиск решения еще более актуальным.

«Изучение галлюцинаций во всех наших моделях — это текущая область исследований, и мы постоянно работаем над повышением их точности и надежности», — сообщил представитель OpenAI Нико Феликс в электронном письме TechCrunch.

В прошлом году более широкая отрасль A переключилась на модели рассуждений после того, как методы улучшения традиционных моделей AI начали демонстрировать убывающую отдачу. Рассуждения улучшают производительность моделей при решении различных задач, не требуя при этом огромных объемов вычислений и данных во время обучения. Однако, похоже, рассуждения также могут привести к большему количеству галлюцинаций, что представляет собой проблему.

Источник

Теги:
Хабы:
+1
Комментарии1

Другие новости

Информация

Сайт
bothub.chat
Дата регистрации
Дата основания
Численность
11–30 человек
Местоположение
Россия
Представитель
veseluha