Модель OpenAI o3 впервые превзошла средний результат человека-эксперта в мультимодальном бенчмарке MMMU.
Вот результаты первых 10 моделей отсюда:

Там же можно посмотреть примеры заданий. Нужно выбирать один из 4-х вариантов, встречаются задачи по определению параметров электрических схем, выбору интегралов для определения площади фигуры на рисунке, задачи на распознавание медицинских изображений, чтение графиков, определение музыкальных интервалов, анализ карты, задачи по экономике с необходимостью чтения диаграмм и многое другое. То есть такие задачи, где визуальная часть является необходимой для их решения.