mefdayy 21 апр в 16:15

OpenAI o3 демонстрирует почти идеальную производительность в тесте с длинным контекстом

2 мин

1.7K

Блог компании BotHubИскусственный интеллектМашинное обучение*

Один из самых убедительных результатов недавних тестов o3 — его производительность при выполнении задач с длительным контекстом.

OpenAI o3 демонстрирует почти идеальную производительность в тесте с длинным контекстом

Поддерживая до 200 000 токенов, o3 является первой моделью, которая достигла 100-процентного результата на тесте Fiction.live с использованием 128 000 токенов — это примерно 96 000 слов. Для любой языковой модели, работающей с обширными повествованиями или большими документами, это значительный шаг вперёд. Единственная модель, которая близка к этому показателю, — Google Gemini 2.5 Pro, набравшая 90,6 процента, в то время как o3-mini и o4-mini значительно отстают.

Тест Fiction.LiveBench разработан для оценки способности моделей полностью осознавать и точно передавать смысл длинных и сложных текстов, включая контекст.

Например, Llama 4 от Meta* рекламирует контекстное окно размером до десяти миллионов токенов — на бумаге это число кажется впечатляющим. Но на практике оно едва ли полезно для чего-то, кроме простого поиска слов, и не справляется с осмысленным пониманием длинных текстов.

Дело не только в Llama 4. В целом, многие модели плохо справляются с пониманием контекста, превращая эти огромные контекстные окна скорее в маркетинговый трюк, чем в реальную возможность. В худшем случае они создают у пользователей иллюзию, что модель обрабатывает весь документ, хотя на самом деле большая часть текста остаётся без внимания — недостаток, отмеченный во многих исследованиях.

Для тех, кто сталкивается с реальными задачами, требующими стабильной и эффективной работы с большими объёмами данных, o3 теперь является явным лидером.

*Meta и ее продукты (Instagram, Facebook) запрещены на территории Российской Федерации

Источник

Теги:

Хабы:

OpenAI o3 демонстрирует почти идеальную производительность в тесте с длинным контекстом

Другие новости

Информация