В arXiv-препринте, опубликованном 24 мая, исследователи из NVIDIA, Princeton и DeepMind представили RULER-2M — расширение методологии RULER на контексты до двух миллионов токенов. Это первая публично доступная оценка long-context-моделей, целенаправленно проверяющая reasoning, а не базовое retrieval — задача «найди иголку в стоге сена», на которой современные модели достигают 99%+ точности и потеряли диагностическую ценность.
Что измеряет бенчмарк
RULER-2M включает семь типов задач, организованных в группы по сложности:
- Multi-hop reasoning: модель должна связать факты, разнесённые по контексту, для ответа на сложный вопрос. Между фактами в среднем 800K-1,2M токенов.
- Coreference tracking: отслеживание сущностей, упоминаемых под разными именами на протяжении длинного документа.
- Structural understanding: восстановление логической структуры документа, секции которого предъявлены в случайном порядке.
- Constraint satisfaction: выполнение требований, описанных в начале контекста, при работе с фрагментом, расположенным в конце.
- Aggregation: подсчёт или агрегация данных, рассеянных по всему контексту.
Авторы намеренно выбрали задачи, в которых attention к локальному фрагменту недостаточен — нужно связать несколько распределённых частей входа. Это смещает диагностический фокус с capacity (сколько токенов модель формально удерживает) на effective context (на каком расстоянии модель ещё способна выполнять reasoning).
Ключевые результаты
Полная таблица результатов опубликована в препринте; приводим агрегированную оценку по семи задачам:
- Gemini 2.5 Pro: 71,8%
- Claude Opus 4.7: 62,4%
- GPT-5o: 58,1%
- Llama 4 400B: 52,3%
- DeepSeek-V3: 49,7%
Все модели показывают существенное снижение точности при увеличении дистанции между связываемыми фактами. На промежутках до 100K все модели работают на уровне 85-95%. На промежутках 500K-1M точность падает до 60-75%. На дистанциях 1,5M+ — до 35-55%. Это показывает, что формальная поддержка большого контекстного окна — не то же самое, что способность с ним работать.
Почему модели проваливаются
Авторы выделяют две основные причины. Первая — distractor sensitivity. На длинных контекстах модели вторично используют косвенно связанные с задачей фрагменты как «опоры» для генерации, что приводит к ложным выводам. Эта проблема не уходит просто с ростом размера модели — нужны архитектурные изменения или специализированное дообучение.
Вторая — chain-of-thought decoherence. При reasoning на длинных контекстах модели чаще «теряют нить»: вторая часть рассуждения относится к контексту, который противоречит первой части. Это особенно заметно на задачах с extended thinking, где сам процесс рассуждения занимает значительное число токенов.
Что это значит для применения
Главное практическое следствие — командам, использующим LLM для работы с длинными документами, нельзя полагаться на формально поддерживаемое окно как на гарантию качества. Если задача требует связать фрагменты, разнесённые на 500K+ токенов, имеет смысл реализовать pre-processing: разбить документ на семантические блоки, использовать векторный retrieval для отбора нужных фрагментов и подавать в модель только релевантный срез.
Это противоречит распространённой риторике «long context убьёт RAG», которая активно продвигалась в 2024 году. Реальность 2026 года в том, что long-context и retrieval — это комплементарные техники, а не альтернативы. Long-context даёт возможность работать с большим объёмом данных без разрыва на несколько вызовов, retrieval — фокусирует модель на наиболее релевантной части.
Авторы анонсировали готовящуюся версию RULER-10M с поддержкой контекстов до 10 миллионов токенов. По их словам, это потребует новой методологии, поскольку существующие подходы к генерации задач не масштабируются на такие объёмы синтетических данных. Публикация ожидается в третьем квартале.