Один из самых убедительных результатов недавних тестов o3 — его производительность при выполнении задач с длительным контекстом.

Поддерживая до 200 000 токенов, o3 является первой моделью, которая достигла 100-процентного результата на тесте Fiction.live с использованием 128 000 токенов — это примерно 96 000 слов. Для любой языковой модели, работающей с обширными повествованиями или большими документами, это значительный шаг вперёд. Единственная модель, которая близка к этому показателю, — Google Gemini 2.5 Pro, набравшая 90,6 процента, в то время как o3-mini и o4-mini значительно отстают.

Тест Fiction.LiveBench разработан для оценки способности моделей полностью осознавать и точно передавать смысл длинных и сложных текстов, включая контекст.
Например, Llama 4 от Meta* рекламирует контекстное окно размером до десяти миллионов токенов — на бумаге это число кажется впечатляющим. Но на практике оно едва ли полезно для чего-то, кроме простого поиска слов, и не справляется с осмысленным пониманием длинных текстов.
Дело не только в Llama 4. В целом, многие модели плохо справляются с пониманием контекста, превращая эти огромные контекстные окна скорее в маркетинговый трюк, чем в реальную возможность. В худшем случае они создают у пользователей иллюзию, что модель обрабатывает весь документ, хотя на самом деле большая часть текста остаётся без внимания — недостаток, отмеченный во многих исследованиях.
Для тех, кто сталкивается с реальными задачами, требующими стабильной и эффективной работы с большими объёмами данных, o3 теперь является явным лидером.
*Meta и ее продукты (Instagram, Facebook) запрещены на территории Российской Федерации