ContextWindow
Тег

#post-training

Исследования

Process Reward Models: новый уровень стабильности в RLHF-обучении

Награды по шагам рассуждения вместо итогового результата позволяют существенно сократить нестабильность RLHF-обучения. Разбираем технические детали подхода и публикации последних месяцев, фиксирующих его как новую норму.