Как стать автором
Обновить
399.84
BotHub
Агрегатор нейросетей: ChatGPT, Claude, Midjourney

Бенчмарк Vals.ai: даже продвинутые AI-агенты ненадежны в финансовом анализе

Время на прочтение4 мин
Количество просмотров648

Несмотря на доступ к исследовательским инструментам и высокие затраты на обработку, ведущие языковые модели не справляются со сложными финансовыми задачами. Новый бенчмарк от Vals.ai показывает, что даже самые продвинутые автономные агенты AI остаются ненадежными для финансового анализа. Самая производительная модель, o3 от OpenAI, достигла точности всего 48,3% — при средней стоимости запроса $3,69.

Тест был разработан совместно со Стэнфордской лабораторией и глобальным системно значимым банком. Он состоит из 537 задач, смоделированных на основе реальных обязанностей финансовых аналитиков, включая обзор документов SEC, исследование рынка и прогнозирование. Всего было оценено 22 ведущие модели.

Таблица: Рейтинг моделей ИИ в финансовом бенчмаркинге по точности (%), стоимости запроса ($) и задержке (с).
Оценка «Точность» в тесте Vals.ai отражает процент задач, которые каждая модель выполнила правильно. Тест проверяет фактические знания, использование инструментов исследования и финансовые рассуждения. | Источник: Vals.ai

Модели продемонстрировали ограниченный успех в базовых заданиях, таких как извлечение числовых данных или резюмирование текста, где средняя точность варьировалась от 30% до 38%. Однако они в основном не справились с более сложными задачами. В категории «Тенденции» десять моделей набрали 0%, а лучший результат — 28,6% — у Claude 3.7 Sonnet.

Для выполнения этих задач среда бенчмарка предоставляла агентам доступ к таким инструментам, как поиск EDGAR, Google и HTML-парсер. Такие модели, как o3 от OpenAI и Claude 3.7 Sonnet (Thinking), которые чаще использовали эти инструменты, в целом работали лучше. Напротив, такие модели, как Llama 4 Maverick, часто полностью пропускали использование инструментов, производя результаты без проведения каких-либо исследований и показывали соответственно слабые результаты.

Но интенсивное использование инструментов не всегда было признаком лучшей производительности. GPT-4o Mini, который сделал больше всего вызовов инструментов, все еще обеспечивал низкую точность из-за постоянных ошибок в форматировании и последовательности задач. Llama 4 Maverick, напротив, регулярно давал ответы, вообще не выполняя поиск.

В некоторых случаях обработка одного запроса стоила более $5. Модель o1 от OpenAI выделялась как особенно неэффективная: она имела низкую точность и высокую стоимость. В практических приложениях эти расходы необходимо было бы сопоставлять со стоимостью человеческого труда.

Диаграмма рассеяния: анализ затрат на запрос ($) в зависимости от точности (%) различных моделей ИИ в финансовом бенчмарке.
Модель o3 от OpenAI возглавила эталон с точностью 48,3%, но также имела самую высокую стоимость запроса в размере 3,69 долл. Claude 3.7 Sonnet показала схожие результаты — точность около 43–44% — всего за 1 долл. за запрос. Модель o1 от OpenAI показала худшее соотношение цены и производительности: 1,50 долл. за запрос при точности около 20%. | Источник: Vals.ai

Эффективность модели сильно различалась. В одной задаче, посвященной выкупу акций Netflix в четвертом квартале 2024 года, Claude 3.7 Sonnet (Thinking) и Gemini 2.5 Pro вернули точные, подкрепленные источниками ответы. С другой стороны, GPT-4o и Llama 3.3 либо упустили релевантную информацию, либо дали неверные ответы. Эти несоответствия подчеркивают постоянную необходимость человеческого контроля в таких областях, как оперативное проектирование, настройка системы и внутренний бенчмаркинг.

Vals.ai приходит к выводу, что сегодняшние агенты AI способны выполнять простые, но трудоемкие задачи, но остаются ненадежными для использования в чувствительных и строго регулируемых секторах, таких как финансы. Модели по-прежнему испытывают трудности со сложными, контекстно-тяжелыми задачами и в настоящее время не могут служить единственной основой для принятия решений.

Для выполнения этих задач среда бенчмарка предоставляла агентам доступ к таким инструментам, как поиск EDGAR, Google и HTML-парсер. Такие модели, как o3 от OpenAI и Claude 3.7 Sonnet (Thinking), которые чаще использовали эти инструменты, в целом работали лучше. Напротив, такие модели, как Llama 4 Maverick, часто полностью пропускали использование инструментов, производя результаты без проведения каких-либо исследований и показывали соответственно слабые результаты.

Но интенсивное использование инструментов не всегда было признаком лучшей производительности. GPT-4o Mini, который сделал больше всего вызовов инструментов, все еще обеспечивал низкую точность из-за постоянных ошибок в форматировании и последовательности задач. Llama 4 Maverick, напротив, регулярно давал ответы, вообще не выполняя поиск.

В некоторых случаях обработка одного запроса стоила более $5. Модель o1 от OpenAI выделялась как особенно неэффективная: она имела низкую точность и высокую стоимость. В практических приложениях эти расходы необходимо было бы сопоставлять со стоимостью человеческого труда.

Диаграмма рассеяния: анализ затрат на запрос ($) в зависимости от точности (%) различных моделей ИИ в финансовом бенчмарке.
Модель o3 от OpenAI возглавила эталон с точностью 48,3%, но также имела самую высокую стоимость запроса в размере 3,69 долл. США. Claude 3.7 Sonnet показала схожие результаты — точность около 43–44% — всего за 1 долл. США за запрос. Модель o1 от OpenAI показала худшее соотношение цены и производительности: 1,50 долл. США за запрос при точности около 20%. | Источник: Vals.ai

Эффективность модели сильно различалась. В одной задаче, посвященной выкупу акций Netflix в четвертом квартале 2024 года, Claude 3.7 Sonnet (Thinking) и Gemini 2.5 Pro вернули точные, подкрепленные источниками ответы. С другой стороны, GPT-4o и Llama 3.3 либо упустили релевантную информацию, либо дали неверные ответы. Эти несоответствия подчеркивают постоянную необходимость человеческого контроля в таких областях, как оперативное проектирование, настройка системы и внутренний бенчмаркинг.

Vals.ai приходит к выводу, что сегодняшние агенты AI способны выполнять простые, но трудоемкие задачи, но остаются ненадежными для использования в чувствительных и строго регулируемых секторах, таких как финансы. Модели по-прежнему испытывают трудности со сложными, контекстно-тяжелыми задачами и в настоящее время не могут служить единственной основой для принятия решений.

Хотя модели могут извлекать базовые данные из документов, они неэффективны, когда требуются более глубокие финансовые обоснования, что делает их непригодными для полной замены аналитиков-людей.

«Данные показывают поразительный разрыв между инвестициями и готовностью. Сегодняшние агенты могут приводить цифры, но не находят решающего финансового обоснования, необходимого для настоящего расширения аналитической работы и раскрытия ценности в этой области», — пишет компания.

Базовый фреймворк доступен с открытым исходным кодом через GitHub, хотя тестовый набор данных остается закрытым, чтобы предотвратить целевое обучение. Полная разбивка результатов бенчмарка доступна на веб-сайте Vals.ai.

Источник

Теги:
Хабы:
+5
Комментарии4

Другие новости

Информация

Сайт
bothub.chat
Дата регистрации
Дата основания
Численность
11–30 человек
Местоположение
Россия
Представитель
Вероника