21 мая Google DeepMind опубликовала результаты Gemini 2.5 Pro на новом бенчмарке RULER-2M, проверяющем способность языковых моделей удерживать связную аргументацию на входах до двух миллионов токенов. По агрегированной метрике модель набрала 71,8% — это лучший результат среди публично оценённых LLM и заметно выше Claude Opus 4.7 (62,4%) и GPT-5o (58,1%).
RULER-2M — расширение оригинального бенчмарка RULER, опубликованного в 2024 году. Авторы добавили семь новых задач, специфичных для контекстов от 500K до 2M токенов: трассировка кореференций через сотни тысяч слов, многоступенчатые логические выводы по фрагментированным фактам, реконструкция структуры документа с перемешанными секциями. Описание методологии и leaderboard опубликованы в arXiv-препринте.
Почему именно Gemini показал такой отрыв
Команда DeepMind объясняет результат комбинацией трёх факторов. Первый — архитектурное решение по сегментации внимания, при котором модель локально обрабатывает блоки по 8K токенов и параллельно поддерживает глобальное представление. Это снижает квадратичные затраты на длинных входах без потери качества на задачах, требующих связывания удалённых фрагментов.
Второй фактор — целенаправленный синтетический корпус для дообучения. По данным компании, около 12% претрейн-токенов составляют документы длиной свыше 200K, отобранные и аугментированные специально для тренировки long-range reasoning. Это контрастирует с подходом OpenAI и Anthropic, где длинный контекст исторически рассматривался как «бесплатный бонус» от scaling-а, без специализированного дообучения.
Третий — RLHF-стадия с reward-моделью, обученной на ошибках длинного контекста. На задачах, где модель «забывала» ранее упомянутые ограничения, операторы фиксировали явный негативный сигнал. Это похоже на технику Process Reward Models, которую публиковала Anthropic в апреле, но применённую к специфической проблематике long-context.
Что бенчмарк не измеряет
Авторы методологии прямо отмечают: RULER-2M проверяет именно reasoning, а не базовое retrieval. Задачи «найди иголку в стоге сена», которые ещё два года назад были основным способом измерения long-context-моделей, на текущих моделях решаются с точностью выше 99% и потеряли диагностическую ценность. Новый бенчмарк ставит модели в условия, где простой attention к нужному фрагменту недостаточен — нужно связать несколько распределённых частей входа.
При этом RULER-2M по-прежнему синтетический. Реальные документы — кодовые базы, нормативные акты, исследовательские отчёты — имеют структуру, которую генератор задач воспроизвести не может. Команды, которые планируют использовать Gemini 2.5 Pro для работы с длинными документами в продакшене, должны проводить собственную валидацию на репрезентативных образцах.
Практические следствия
Для команд, выбирающих модель под задачи с большим контекстом — анализ длинных переписок, юридических документов, агрегацию исследовательских материалов — Gemini 2.5 Pro переходит в позицию default-выбора. Cost-per-million-tokens у Google пока ниже, чем у Anthropic, что делает выбор экономически рациональным даже без учёта качественной разницы.
Anthropic уже анонсировала, что следующий релиз Claude Opus 5 будет включать пересмотренную long-context-архитектуру — публикация ожидается в третьем квартале. До тех пор Gemini сохранит технологическое лидерство в этой нише.