reasoning Archives - ContextWindow

RULER-2M: новый бенчмарк длинного контекста и что он показывает о реальных пределах моделей

Авторы расширенной версии RULER опубликовали бенчмарк на контексте до 2 миллионов токенов. Главный результат — даже модели с формально поддерживаемым окном 1M+ систематически проваливаются на задачах, требующих связной аргументации по дальним фрагментам.

24 мая 3 мин

Исследования

Process Reward Models: новый уровень стабильности в RLHF-обучении

Награды по шагам рассуждения вместо итогового результата позволяют существенно сократить нестабильность RLHF-обучения. Разбираем технические детали подхода и публикации последних месяцев, фиксирующих его как новую норму.

16 мая 3 мин

Исследования

Inference-time scaling: что говорят кривые reasoning-моделей и сколько это стоит

Reasoning-режимы у o1, Claude и Gemini подняли качество за счёт затрат на инференс. Анализируем кривые «компьют против качества» и оцениваем, когда такие модели экономически оправданы.

9 мая 3 мин