Несмотря на доступ к исследовательским инструментам и высокие затраты на обработку, ведущие языковые модели не справляются со сложными финансовыми задачами. Новый бенчмарк от Vals.ai показывает, что даже самые продвинутые автономные агенты AI остаются ненадежными для финансового анализа. Самая производительная модель, o3 от OpenAI, достигла точности всего 48,3% — при средней стоимости запроса $3,69.

Тест был разработан совместно со Стэнфордской лабораторией и глобальным системно значимым банком. Он состоит из 537 задач, смоделированных на основе реальных обязанностей финансовых аналитиков, включая обзор документов SEC, исследование рынка и прогнозирование. Всего было оценено 22 ведущие модели.

Модели продемонстрировали ограниченный успех в базовых заданиях, таких как извлечение числовых данных или резюмирование текста, где средняя точность варьировалась от 30% до 38%. Однако они в основном не справились с более сложными задачами. В категории «Тенденции» десять моделей набрали 0%, а лучший результат — 28,6% — у Claude 3.7 Sonnet.
Для выполнения этих задач среда бенчмарка предоставляла агентам доступ к таким инструментам, как поиск EDGAR, Google и HTML-парсер. Такие модели, как o3 от OpenAI и Claude 3.7 Sonnet (Thinking), которые чаще использовали эти инструменты, в целом работали лучше. Напротив, такие модели, как Llama 4 Maverick, часто полностью пропускали использование инструментов, производя результаты без проведения каких-либо исследований и показывали соответственно слабые результаты.
Но интенсивное использование инструментов не всегда было признаком лучшей производительности. GPT-4o Mini, который сделал больше всего вызовов инструментов, все еще обеспечивал низкую точность из-за постоянных ошибок в форматировании и последовательности задач. Llama 4 Maverick, напротив, регулярно давал ответы, вообще не выполняя поиск.
В некоторых случаях обработка одного запроса стоила более $5. Модель o1 от OpenAI выделялась как особенно неэффективная: она имела низкую точность и высокую стоимость. В практических приложениях эти расходы необходимо было бы сопоставлять со стоимостью человеческого труда.

Эффективность модели сильно различалась. В одной задаче, посвященной выкупу акций Netflix в четвертом квартале 2024 года, Claude 3.7 Sonnet (Thinking) и Gemini 2.5 Pro вернули точные, подкрепленные источниками ответы. С другой стороны, GPT-4o и Llama 3.3 либо упустили релевантную информацию, либо дали неверные ответы. Эти несоответствия подчеркивают постоянную необходимость человеческого контроля в таких областях, как оперативное проектирование, настройка системы и внутренний бенчмаркинг.
Vals.ai приходит к выводу, что сегодняшние агенты AI способны выполнять простые, но трудоемкие задачи, но остаются ненадежными для использования в чувствительных и строго регулируемых секторах, таких как финансы. Модели по-прежнему испытывают трудности со сложными, контекстно-тяжелыми задачами и в настоящее время не могут служить единственной основой для принятия решений.
Для выполнения этих задач среда бенчмарка предоставляла агентам доступ к таким инструментам, как поиск EDGAR, Google и HTML-парсер. Такие модели, как o3 от OpenAI и Claude 3.7 Sonnet (Thinking), которые чаще использовали эти инструменты, в целом работали лучше. Напротив, такие модели, как Llama 4 Maverick, часто полностью пропускали использование инструментов, производя результаты без проведения каких-либо исследований и показывали соответственно слабые результаты.
Но интенсивное использование инструментов не всегда было признаком лучшей производительности. GPT-4o Mini, который сделал больше всего вызовов инструментов, все еще обеспечивал низкую точность из-за постоянных ошибок в форматировании и последовательности задач. Llama 4 Maverick, напротив, регулярно давал ответы, вообще не выполняя поиск.
В некоторых случаях обработка одного запроса стоила более $5. Модель o1 от OpenAI выделялась как особенно неэффективная: она имела низкую точность и высокую стоимость. В практических приложениях эти расходы необходимо было бы сопоставлять со стоимостью человеческого труда.

Эффективность модели сильно различалась. В одной задаче, посвященной выкупу акций Netflix в четвертом квартале 2024 года, Claude 3.7 Sonnet (Thinking) и Gemini 2.5 Pro вернули точные, подкрепленные источниками ответы. С другой стороны, GPT-4o и Llama 3.3 либо упустили релевантную информацию, либо дали неверные ответы. Эти несоответствия подчеркивают постоянную необходимость человеческого контроля в таких областях, как оперативное проектирование, настройка системы и внутренний бенчмаркинг.
Vals.ai приходит к выводу, что сегодняшние агенты AI способны выполнять простые, но трудоемкие задачи, но остаются ненадежными для использования в чувствительных и строго регулируемых секторах, таких как финансы. Модели по-прежнему испытывают трудности со сложными, контекстно-тяжелыми задачами и в настоящее время не могут служить единственной основой для принятия решений.
Хотя модели могут извлекать базовые данные из документов, они неэффективны, когда требуются более глубокие финансовые обоснования, что делает их непригодными для полной замены аналитиков-людей.
«Данные показывают поразительный разрыв между инвестициями и готовностью. Сегодняшние агенты могут приводить цифры, но не находят решающего финансового обоснования, необходимого для настоящего расширения аналитической работы и раскрытия ценности в этой области», — пишет компания.
Базовый фреймворк доступен с открытым исходным кодом через GitHub, хотя тестовый набор данных остается закрытым, чтобы предотвратить целевое обучение. Полная разбивка результатов бенчмарка доступна на веб-сайте Vals.ai.