ContextWindow
Рубрика

Исследования

Исследования

RULER-2M: новый бенчмарк длинного контекста и что он показывает о реальных пределах моделей

Авторы расширенной версии RULER опубликовали бенчмарк на контексте до 2 миллионов токенов. Главный результат — даже модели с формально поддерживаемым окном 1M+ систематически проваливаются на задачах, требующих связной аргументации по дальним фрагментам.

Исследования

Process Reward Models: новый уровень стабильности в RLHF-обучении

Награды по шагам рассуждения вместо итогового результата позволяют существенно сократить нестабильность RLHF-обучения. Разбираем технические детали подхода и публикации последних месяцев, фиксирующих его как новую норму.

Исследования

MMMU-Pro: что измеряет новый мультимодальный бенчмарк и где сейчас лидеры

Расширенная версия MMMU добавляет задачи с фильтрацией визуальных дистракторов и многошаговое визуальное рассуждение. Разбираем, чем отличается от предшественника и какие модели сейчас лидируют.

Исследования

Совместная работа Сколтеха и Яндекса по эффективной токенизации русского языка

Исследователи опубликовали методологию построения токенизатора для русскоязычных корпусов с учётом морфологии. Заявленное снижение средней длины последовательности — до 18%, что напрямую влияет на стоимость инференса.