Process Reward Models: новый уровень стабильности в RLHF-обучении

Награды по шагам рассуждения вместо итогового результата позволяют существенно сократить нестабильность RLHF-обучения. Разбираем технические детали подхода и публикации последних месяцев, фиксирующих его как новую норму.

Метод Process Reward Models (PRM) — наградной механизм, оценивающий каждый шаг рассуждения модели, а не только конечный ответ — за последние шесть месяцев перешёл из исследовательской ниши в категорию методов, на которые опираются практически все frontier-команды. Майские публикации от OpenAI, Anthropic и Skoltech фиксируют это как новую отраслевую норму, а не экспериментальный подход.

В чём отличие от Outcome Reward Models

Классический RLHF использует Outcome Reward Models (ORM): после генерации полного ответа человек или вспомогательная модель ставит оценку. Этот сигнал затем используется для обновления политики через PPO или аналогичные алгоритмы. Подход прост и хорошо изучен, но имеет известную проблему credit assignment — непонятно, на каких именно шагах рассуждения модель ошиблась.

Process Reward Models дают сигнал на каждом шаге. Если модель решает задачу через chain-of-thought из десяти шагов, PRM оценивает каждый шаг независимо: правильно ли модель сослалась на промежуточный результат, корректно ли применила правило, не сделала ли логическую ошибку. Это даёт значительно более плотный обучающий сигнал и позволяет точечно корректировать поведение.

Практическое следствие — PRM-обученные модели реже «загадывают» правильный ответ через неправильные рассуждения. Сегодняшние эвалюации показывают, что модели, обученные на PRM, демонстрируют гораздо более согласованную внутреннюю логику, что упрощает их отладку и аудит.

Технические детали последних публикаций

Публикация OpenAI «Let’s Verify Step by Step», впервые формализовавшая подход в 2023 году, оставалась референсной до начала 2026 года. С тех пор появилось несколько работ, развивающих метод в разных направлениях:

Anthropic — Tree-PRM: вместо линейной цепочки рассуждений рассматривается дерево возможных шагов, и PRM используется для отбора наиболее перспективных ветвей. Это значительно повышает стабильность обучения на сложных задачах с большим пространством решений.
DeepMind — Self-supervised PRM: вспомогательная модель PRM обучается без человеческой разметки шагов, через сравнение с правильным финальным ответом. Это снижает зависимость от дорогой ручной разметки.
Skoltech — Multi-domain PRM: единая PRM, обученная на нескольких доменах (математика, программирование, юриспруденция), показывает положительный transfer effect — обучение на одном домене улучшает качество в другом.

Где это уже работает в продакшене

Модели с extended thinking, выпущенные за последние шесть месяцев — Claude Opus 4.7, GPT-5o reasoning mode, Gemini 2.5 Pro thinking — все используют тот или иной вариант PRM в своём post-training-процессе. Это объясняет общий сдвиг в качестве: разница в reasoning между текущими моделями и моделями годовой давности на сопоставимом объёме параметров заметна именно благодаря этому изменению методики.

Для open-weight-сообщества PRM пока остаётся областью активного развития. DeepSeek-R1 опубликовал часть деталей своего подхода, что позволило независимым командам воспроизводить элементы метода. Однако полные тренировочные пайплайны PRM от ведущих лабораторий остаются закрытыми — это одна из главных областей, в которых разрыв между frontier и open-weight моделями продолжает оставаться значимым.

Что это значит для архитектуры моделей

PRM существенно меняет требования к данным. Если для классического RLHF достаточно был human preference pairs (две версии ответа с указанием, какая лучше), для PRM нужны размеченные пошаговые цепочки рассуждений с оценкой каждого шага. Это значительно дороже в производстве и требует тренировки специализированных аннотаторов.

Параллельно метод стимулирует развитие альтернативных архитектур, оптимизированных под reasoning. Модели с открытыми reasoning-токенами (когда внутреннее рассуждение видимо пользователю), которые казались экспериментом в 2024 году, к 2026 году становятся стандартом для продвинутых сценариев. Это переопределяет, что означает «качество модели» — теперь оценивается не только финальный ответ, но и качество траектории к нему.

По мотивам: публикации arXiv от OpenAI, Anthropic, DeepMind и Skoltech, технические блоги команд.

Process Reward Models: новый уровень стабильности в RLHF-обучении

В чём отличие от Outcome Reward Models

Технические детали последних публикаций

Где это уже работает в продакшене

Что это значит для архитектуры моделей

Связанное

RULER-2M: новый бенчмарк длинного контекста и что он показывает о реальных пределах моделей

MMMU-Pro: что измеряет новый мультимодальный бенчмарк и где сейчас лидеры

Inference-time scaling: что говорят кривые reasoning-моделей и сколько это стоит