强化学习 RM 方法
ORM
Outcome Reward Model
- 在生成模型中,通常是对生成的结果整体做一个打分。
- https://zhuanlan.zhihu.com/p/14993645091
PRM
Process Reward Model
-
在生成的过程,分步骤,对每一步进行打分,是更细粒度的奖励模型。在 OpenAI 推出 O1之后,PRM 逐渐成为业界研究的新宠。
PairRM
Pairwise RM 内部的 QRM
Pointwise RM
GRM
Rule-based RM
Linked Mentions
-
No backlinks found.