21 мая Google DeepMind опубликовала результаты Gemini 2.5 Pro на новом бенчмарке RULER-2M, проверяющем способность языковых моделей удерживать связную аргументацию на входах до двух миллионов токенов. По агрегированной метрике модель набрала 71,8% — это лучший результат среди публично оценённых LLM и заметно выше Claude Opus 4.7 (62,4%) и GPT-5o (58,1%).

RULER-2M — расширение оригинального бенчмарка RULER, опубликованного в 2024 году. Авторы добавили семь новых задач, специфичных для контекстов от 500K до 2M токенов: трассировка кореференций через сотни тысяч слов, многоступенчатые логические выводы по фрагментированным фактам, реконструкция структуры документа с перемешанными секциями. Описание методологии и leaderboard опубликованы в arXiv-препринте.

Почему именно Gemini показал такой отрыв

Команда DeepMind объясняет результат комбинацией трёх факторов. Первый — архитектурное решение по сегментации внимания, при котором модель локально обрабатывает блоки по 8K токенов и параллельно поддерживает глобальное представление. Это снижает квадратичные затраты на длинных входах без потери качества на задачах, требующих связывания удалённых фрагментов.

Второй фактор — целенаправленный синтетический корпус для дообучения. По данным компании, около 12% претрейн-токенов составляют документы длиной свыше 200K, отобранные и аугментированные специально для тренировки long-range reasoning. Это контрастирует с подходом OpenAI и Anthropic, где длинный контекст исторически рассматривался как «бесплатный бонус» от scaling-а, без специализированного дообучения.

Третий — RLHF-стадия с reward-моделью, обученной на ошибках длинного контекста. На задачах, где модель «забывала» ранее упомянутые ограничения, операторы фиксировали явный негативный сигнал. Это похоже на технику Process Reward Models, которую публиковала Anthropic в апреле, но применённую к специфической проблематике long-context.

Что бенчмарк не измеряет

Авторы методологии прямо отмечают: RULER-2M проверяет именно reasoning, а не базовое retrieval. Задачи «найди иголку в стоге сена», которые ещё два года назад были основным способом измерения long-context-моделей, на текущих моделях решаются с точностью выше 99% и потеряли диагностическую ценность. Новый бенчмарк ставит модели в условия, где простой attention к нужному фрагменту недостаточен — нужно связать несколько распределённых частей входа.

При этом RULER-2M по-прежнему синтетический. Реальные документы — кодовые базы, нормативные акты, исследовательские отчёты — имеют структуру, которую генератор задач воспроизвести не может. Команды, которые планируют использовать Gemini 2.5 Pro для работы с длинными документами в продакшене, должны проводить собственную валидацию на репрезентативных образцах.

Практические следствия

Для команд, выбирающих модель под задачи с большим контекстом — анализ длинных переписок, юридических документов, агрегацию исследовательских материалов — Gemini 2.5 Pro переходит в позицию default-выбора. Cost-per-million-tokens у Google пока ниже, чем у Anthropic, что делает выбор экономически рациональным даже без учёта качественной разницы.

Anthropic уже анонсировала, что следующий релиз Claude Opus 5 будет включать пересмотренную long-context-архитектуру — публикация ожидается в третьем квартале. До тех пор Gemini сохранит технологическое лидерство в этой нише.

По мотивам: Google DeepMind, RULER-2M paper, технические блоги команд.