Бенчмарк MMMU-Pro, опубликованный 13 мая в препринте на arXiv, — расширение оригинального MMMU (Massive Multi-discipline Multimodal Understanding) от 2024 года. Он закрывает несколько известных ограничений предшественника и предлагает более строгую методологию оценки мультимодальных моделей.
Что нового
Оригинальный MMMU оценивал модели на 11500 вопросах по 30 академическим дисциплинам, в каждом из которых требовалась интерпретация изображения. К началу 2026 года стало понятно, что бенчмарк страдает от трёх проблем: (1) часть вопросов решаема на основе одного текста без изображения; (2) дистракторы в multiple-choice часто легко отсекаются; (3) тест проверяет распознавание контента, но не рассуждение по нему.
MMMU-Pro решает эти проблемы тремя изменениями:
- Vision-only режим: в части задач вопрос предъявляется только как изображение со встроенным текстом — модель не может «срезать» через языковые подсказки.
- Расширенный набор дистракторов: от 4 до 10 вариантов, отобранных так, чтобы максимально снизить вероятность угадывания.
- Multi-step visual reasoning: задачи, требующие связного рассуждения по нескольким изображениям или по нескольким частям одного сложного изображения.
В результате точность moделей упала на 15-25 пунктов относительно оригинального MMMU. Это ожидаемо — бенчмарк стал значительно жёстче — но даёт более содержательный диагностический сигнал.
Текущий leaderboard
На опубликованных результатах MMMU-Pro:
- GPT-5o: 64,2%
- Gemini 2.5 Pro: 62,8%
- Claude Opus 4.7: 60,1%
- Qwen2.5-VL-72B: 53,4%
- Llama 4 400B: 51,2%
- Human baseline: 88,6%
Заметный разрыв между человеческим baseline и лучшими моделями (около 24 пунктов) показывает, что мультимодальное понимание остаётся открытой задачей. На текстовых бенчмарках разрыв с человеком значительно сократился, на визуальных — нет.
Среди open-weight-моделей Qwen2.5-VL занимает заметно лидирующую позицию. Это объясняется тем, что Alibaba последовательно инвестировала в мультимодальное направление в течение последних двух лет, тогда как Meta и Mistral до недавнего времени фокусировались на чисто текстовых моделях.
Где модели проваливаются
Анализ ошибок, приведённый в препринте, выделяет три категории провалов. Первая — neglected detail: модель видит общую картину, но пропускает мелкую деталь, критичную для правильного ответа. Это особенно заметно на медицинских изображениях, технических схемах и графиках.
Вторая — incorrect spatial reasoning: модель неверно интерпретирует пространственные отношения между объектами, особенно когда требуется представить положение «за», «над», «впереди от точки наблюдения».
Третья — false visual confidence: модель уверенно интерпретирует размытое или ambiguous-изображение в одну из возможных трактовок, не отмечая неопределённости. Это поведенческая, а не сенсорная проблема — связана с tuning-стратегией, при которой за неуверенность платится оптимизационной ценой.
Что это значит для применения
Для команд, использующих мультимодальные модели в продакшене — анализ медицинских изображений, чтение технической документации, обработка скриншотов в агентных пайплайнах — MMMU-Pro даёт более реалистичную картину текущих возможностей. На простых задачах распознавания все frontier-модели работают хорошо. На задачах, требующих внимания к деталям и пространственного рассуждения, ошибки остаются частыми и могут быть фатальными для критических применений.
Имеет смысл при выборе мультимодальной модели прогонять собственные репрезентативные образцы через несколько кандидатов и оценивать поведение на specific scenarios. Опираться только на агрегированные scores опасно — они скрывают систематические провалы, важные для конкретного use case.