RULER-2M: новый бенчмарк длинного контекста и что он показывает о реальных пределах моделей

Авторы расширенной версии RULER опубликовали бенчмарк на контексте до 2 миллионов токенов. Главный результат — даже модели с формально поддерживаемым окном 1M+ систематически проваливаются на задачах, требующих связной аргументации по дальним фрагментам.

В arXiv-препринте, опубликованном 24 мая, исследователи из NVIDIA, Princeton и DeepMind представили RULER-2M — расширение методологии RULER на контексты до двух миллионов токенов. Это первая публично доступная оценка long-context-моделей, целенаправленно проверяющая reasoning, а не базовое retrieval — задача «найди иголку в стоге сена», на которой современные модели достигают 99%+ точности и потеряли диагностическую ценность.

Что измеряет бенчмарк

RULER-2M включает семь типов задач, организованных в группы по сложности:

Multi-hop reasoning: модель должна связать факты, разнесённые по контексту, для ответа на сложный вопрос. Между фактами в среднем 800K-1,2M токенов.
Coreference tracking: отслеживание сущностей, упоминаемых под разными именами на протяжении длинного документа.
Structural understanding: восстановление логической структуры документа, секции которого предъявлены в случайном порядке.
Constraint satisfaction: выполнение требований, описанных в начале контекста, при работе с фрагментом, расположенным в конце.
Aggregation: подсчёт или агрегация данных, рассеянных по всему контексту.

Авторы намеренно выбрали задачи, в которых attention к локальному фрагменту недостаточен — нужно связать несколько распределённых частей входа. Это смещает диагностический фокус с capacity (сколько токенов модель формально удерживает) на effective context (на каком расстоянии модель ещё способна выполнять reasoning).

Ключевые результаты

Полная таблица результатов опубликована в препринте; приводим агрегированную оценку по семи задачам:

Gemini 2.5 Pro: 71,8%
Claude Opus 4.7: 62,4%
GPT-5o: 58,1%
Llama 4 400B: 52,3%
DeepSeek-V3: 49,7%

Все модели показывают существенное снижение точности при увеличении дистанции между связываемыми фактами. На промежутках до 100K все модели работают на уровне 85-95%. На промежутках 500K-1M точность падает до 60-75%. На дистанциях 1,5M+ — до 35-55%. Это показывает, что формальная поддержка большого контекстного окна — не то же самое, что способность с ним работать.

Почему модели проваливаются

Авторы выделяют две основные причины. Первая — distractor sensitivity. На длинных контекстах модели вторично используют косвенно связанные с задачей фрагменты как «опоры» для генерации, что приводит к ложным выводам. Эта проблема не уходит просто с ростом размера модели — нужны архитектурные изменения или специализированное дообучение.

Вторая — chain-of-thought decoherence. При reasoning на длинных контекстах модели чаще «теряют нить»: вторая часть рассуждения относится к контексту, который противоречит первой части. Это особенно заметно на задачах с extended thinking, где сам процесс рассуждения занимает значительное число токенов.

Что это значит для применения

Главное практическое следствие — командам, использующим LLM для работы с длинными документами, нельзя полагаться на формально поддерживаемое окно как на гарантию качества. Если задача требует связать фрагменты, разнесённые на 500K+ токенов, имеет смысл реализовать pre-processing: разбить документ на семантические блоки, использовать векторный retrieval для отбора нужных фрагментов и подавать в модель только релевантный срез.

Это противоречит распространённой риторике «long context убьёт RAG», которая активно продвигалась в 2024 году. Реальность 2026 года в том, что long-context и retrieval — это комплементарные техники, а не альтернативы. Long-context даёт возможность работать с большим объёмом данных без разрыва на несколько вызовов, retrieval — фокусирует модель на наиболее релевантной части.

Авторы анонсировали готовящуюся версию RULER-10M с поддержкой контекстов до 10 миллионов токенов. По их словам, это потребует новой методологии, поскольку существующие подходы к генерации задач не масштабируются на такие объёмы синтетических данных. Публикация ожидается в третьем квартале.

По мотивам: RULER-2M preprint на arXiv, технические блоги исследовательских групп.

RULER-2M: новый бенчмарк длинного контекста и что он показывает о реальных пределах моделей

Что измеряет бенчмарк

Ключевые результаты

Почему модели проваливаются

Что это значит для применения

Связанное

Process Reward Models: новый уровень стабильности в RLHF-обучении

MMMU-Pro: что измеряет новый мультимодальный бенчмарк и где сейчас лидеры

Inference-time scaling: что говорят кривые reasoning-моделей и сколько это стоит