Garden | Routing Replay

Rollout Routing Replay 主要解决在专家混合（MoE）大模型中，因其路由机制在训练和推理阶段的行为不一致，导致训练和推理的 logprob 产生比较大的差异进而引起强化学习（RL）训练不稳定甚至崩溃的问题。

Rollout Routing Replay 会在模型进行推理时（Rollout 阶段），记录下每个 token 的 router 分布，然后在后续的训练过程中使用这些 router 分布进行计算。通过这种方式，强制训练过程模仿并对齐推理时的 router 行为，从而弥合两者之间的差异。

需要注意的是, GSPO 论文中提到的 Routing Replay, 是训练侧 old 和 target 策略之间，如果进行 token-level 的重要性采样，可能导致专家激活模式在新旧策略之间有差异，这种路由波动可能破坏训练稳定性，GSPO 因为引入了 seq-level 的重要性采样，对单个 token 的专家波动不敏感，可以不需要 routing replay（而 GRPO 不引入 routing replay 容易训崩）。而上面讨论的 routing replay，主要还是解决训推不一致导致的路由波动带来的问题。