MMMU-Pro: что измеряет новый мультимодальный бенчмарк и где сейчас лидеры

Расширенная версия MMMU добавляет задачи с фильтрацией визуальных дистракторов и многошаговое визуальное рассуждение. Разбираем, чем отличается от предшественника и какие модели сейчас лидируют.

Бенчмарк MMMU-Pro, опубликованный 13 мая в препринте на arXiv, — расширение оригинального MMMU (Massive Multi-discipline Multimodal Understanding) от 2024 года. Он закрывает несколько известных ограничений предшественника и предлагает более строгую методологию оценки мультимодальных моделей.

Что нового

Оригинальный MMMU оценивал модели на 11500 вопросах по 30 академическим дисциплинам, в каждом из которых требовалась интерпретация изображения. К началу 2026 года стало понятно, что бенчмарк страдает от трёх проблем: (1) часть вопросов решаема на основе одного текста без изображения; (2) дистракторы в multiple-choice часто легко отсекаются; (3) тест проверяет распознавание контента, но не рассуждение по нему.

MMMU-Pro решает эти проблемы тремя изменениями:

Vision-only режим: в части задач вопрос предъявляется только как изображение со встроенным текстом — модель не может «срезать» через языковые подсказки.
Расширенный набор дистракторов: от 4 до 10 вариантов, отобранных так, чтобы максимально снизить вероятность угадывания.
Multi-step visual reasoning: задачи, требующие связного рассуждения по нескольким изображениям или по нескольким частям одного сложного изображения.

В результате точность moделей упала на 15-25 пунктов относительно оригинального MMMU. Это ожидаемо — бенчмарк стал значительно жёстче — но даёт более содержательный диагностический сигнал.

Текущий leaderboard

На опубликованных результатах MMMU-Pro:

GPT-5o: 64,2%
Gemini 2.5 Pro: 62,8%
Claude Opus 4.7: 60,1%
Qwen2.5-VL-72B: 53,4%
Llama 4 400B: 51,2%
Human baseline: 88,6%

Заметный разрыв между человеческим baseline и лучшими моделями (около 24 пунктов) показывает, что мультимодальное понимание остаётся открытой задачей. На текстовых бенчмарках разрыв с человеком значительно сократился, на визуальных — нет.

Среди open-weight-моделей Qwen2.5-VL занимает заметно лидирующую позицию. Это объясняется тем, что Alibaba последовательно инвестировала в мультимодальное направление в течение последних двух лет, тогда как Meta и Mistral до недавнего времени фокусировались на чисто текстовых моделях.

Где модели проваливаются

Анализ ошибок, приведённый в препринте, выделяет три категории провалов. Первая — neglected detail: модель видит общую картину, но пропускает мелкую деталь, критичную для правильного ответа. Это особенно заметно на медицинских изображениях, технических схемах и графиках.

Вторая — incorrect spatial reasoning: модель неверно интерпретирует пространственные отношения между объектами, особенно когда требуется представить положение «за», «над», «впереди от точки наблюдения».

Третья — false visual confidence: модель уверенно интерпретирует размытое или ambiguous-изображение в одну из возможных трактовок, не отмечая неопределённости. Это поведенческая, а не сенсорная проблема — связана с tuning-стратегией, при которой за неуверенность платится оптимизационной ценой.

Что это значит для применения

Для команд, использующих мультимодальные модели в продакшене — анализ медицинских изображений, чтение технической документации, обработка скриншотов в агентных пайплайнах — MMMU-Pro даёт более реалистичную картину текущих возможностей. На простых задачах распознавания все frontier-модели работают хорошо. На задачах, требующих внимания к деталям и пространственного рассуждения, ошибки остаются частыми и могут быть фатальными для критических применений.

Имеет смысл при выборе мультимодальной модели прогонять собственные репрезентативные образцы через несколько кандидатов и оценивать поведение на specific scenarios. Опираться только на агрегированные scores опасно — они скрывают систематические провалы, важные для конкретного use case.

По мотивам: MMMU-Pro paper, arXiv preprint и technical blog авторов.

MMMU-Pro: что измеряет новый мультимодальный бенчмарк и где сейчас лидеры

Что нового

Текущий leaderboard

Где модели проваливаются

Что это значит для применения

Связанное

RULER-2M: новый бенчмарк длинного контекста и что он показывает о реальных пределах моделей

Process Reward Models: новый уровень стабильности в RLHF-обучении

Inference-time scaling: что говорят кривые reasoning-моделей и сколько это стоит