Исследования
Авторы расширенной версии RULER опубликовали бенчмарк на контексте до 2 миллионов токенов. Главный результат — даже модели с формально поддерживаемым окном 1M+ систематически проваливаются на задачах, требующих связной аргументации по дальним фрагментам.
24 мая
3 мин
Исследования
Награды по шагам рассуждения вместо итогового результата позволяют существенно сократить нестабильность RLHF-обучения. Разбираем технические детали подхода и публикации последних месяцев, фиксирующих его как новую норму.
16 мая
3 мин
Исследования
Расширенная версия MMMU добавляет задачи с фильтрацией визуальных дистракторов и многошаговое визуальное рассуждение. Разбираем, чем отличается от предшественника и какие модели сейчас лидируют.
13 мая
3 мин
Исследования
Reasoning-режимы у o1, Claude и Gemini подняли качество за счёт затрат на инференс. Анализируем кривые «компьют против качества» и оцениваем, когда такие модели экономически оправданы.
9 мая
3 мин
Исследования
Исследователи опубликовали методологию построения токенизатора для русскоязычных корпусов с учётом морфологии. Заявленное снижение средней длины последовательности — до 18%, что напрямую влияет на стоимость инференса.
7 мая
3 мин