Исследования
Авторы расширенной версии RULER опубликовали бенчмарк на контексте до 2 миллионов токенов. Главный результат — даже модели с формально поддерживаемым окном 1M+ систематически проваливаются на задачах, требующих связной аргументации по дальним фрагментам.
24 мая
3 мин
Модели
Модель Google DeepMind заняла первое место на новом бенчмарке длинного контекста с 2 миллионами токенов. Разбираем, в чём именно она опередила конкурентов, и какие ограничения этот результат не закрывает.
21 мая
3 мин
Исследования
Расширенная версия MMMU добавляет задачи с фильтрацией визуальных дистракторов и многошаговое визуальное рассуждение. Разбираем, чем отличается от предшественника и какие модели сейчас лидируют.
13 мая
3 мин