Вышел ClockBench — визуальный бенчмарк для оценки умения моделей пользоваться аналоговыми часами / Хабр

Исследователи выпустили визуальный бенчмарк ClockBench, который оценивает навыки моделей машинного обучения пользоваться аналоговыми часами. Лучше всего с задачей справляется Gemini 2.5 Pro. Модель правильно отвечает на 13,3% вопросов.

Бенчмарк состоит из 180 изображений аналоговых часов (36 циферблатов × 5 образцов). К каждому изображению есть по четыре вопроса. Например, модели просят определить время, сложить или вычесть определённый промежуток из текущего времени, перевести одну из стрелок или назвать время в другом часовом поясе, исходя из текущего.

Для оценки качества ответов моделей разработчики отталкиваются от результатов человека. Люди в бенчмарке набирают 89,1% правильных ответов. Результаты моделей следующие:

Модель	Результат	Разработчик
Gemini 2.5 Pro	13,3%	Google
o3 Pro	13,3%	OpenAI
Gemini 2.5 Flash	10,5%	Google
o3 High	9,1%	OpenAI
GPT-5 High	8,4%	OpenAI
GPT-5 Mini	5,6%	OpenAI
Claude Opus 4.1	5,6%	Anthropic
Qwen 2.5-VL-72B	4,9%	Alibaba
Claude Sonnet 4	4,2%	Anthropic
Mistral Medium 3.1	2,8%	Mistral
GPT-4o	2,1%	OpenAI
GPT-5 Nano	2,1%	OpenAI
Grok 4	0,7%	xAI

На GitHub авторы бенчмарка опубликовали 10 примеров тестовых изображений. Полностью датасет не выкладывают, чтобы модели не обучили проходить бенчмарк.

Вышел ClockBench — визуальный бенчмарк для оценки умения моделей пользоваться аналоговыми часами

Другие новости

Ближайшие события