强化学习 RM 方法

ORM

Outcome Reward Model

在生成模型中，通常是对生成的结果整体做一个打分。
https://zhuanlan.zhihu.com/p/14993645091

PRM

Process Reward Model

在生成的过程，分步骤，对每一步进行打分，是更细粒度的奖励模型。在 OpenAI 推出 O1之后，PRM 逐渐成为业界研究的新宠。
https://zhuanlan.zhihu.com/p/15540962086
https://arxiv.org/pdf/2305.20050
https://zhuanlan.zhihu.com/p/16027048017

PairRM

Pairwise RM 内部的 QRM

Pointwise RM

GRM

Rule-based RM

Author houmin

Publish January 1, 0001

LastMod November 9, 2025

License CC BY-NC-ND 4.0

Linked Mentions

No backlinks found.