Исследователи выпустили визуальный бенчмарк ClockBench, который оценивает навыки моделей машинного обучения пользоваться аналоговыми часами. Лучше всего с задачей справляется Gemini 2.5 Pro. Модель правильно отвечает на 13,3% вопросов.

Бенчмарк состоит из 180 изображений аналоговых часов (36 циферблатов × 5 образцов). К каждому изображению есть по четыре вопроса. Например, модели просят определить время, сложить или вычесть определённый промежуток из текущего времени, перевести одну из стрелок или назвать время в другом часовом поясе, исходя из текущего.
Для оценки качества ответов моделей разработчики отталкиваются от результатов человека. Люди в бенчмарке набирают 89,1% правильных ответов. Результаты моделей следующие:
Модель | Результат | Разработчик |
Gemini 2.5 Pro | 13,3% | |
o3 Pro | 13,3% | OpenAI |
Gemini 2.5 Flash | 10,5% | |
o3 High | 9,1% | OpenAI |
GPT-5 High | 8,4% | OpenAI |
GPT-5 Mini | 5,6% | OpenAI |
Claude Opus 4.1 | 5,6% | Anthropic |
Qwen 2.5-VL-72B | 4,9% | Alibaba |
Claude Sonnet 4 | 4,2% | Anthropic |
Mistral Medium 3.1 | 2,8% | Mistral |
GPT-4o | 2,1% | OpenAI |
GPT-5 Nano | 2,1% | OpenAI |
Grok 4 | 0,7% | xAI |
На GitHub авторы бенчмарка опубликовали 10 примеров тестовых изображений. Полностью датасет не выкладывают, чтобы модели не обучили проходить бенчмарк.