Hierarchical RL
如何让 LLM Agent 学会长时间、多轮决策(long-horizon decision making)?
论文提出了一个 Hierarchical RL 框架 —— ArCHer (Actor-Critic Framework with a Hierarchical Structure)
一句话总结
ArCHer 的核心思想:
把 Agent 的 RL 拆成两层:
- 高层:学习每一轮对话 / Action 的价值(Utterance-level RL)
- 低层:学习每个 token 怎么生成(Token-level RL)
用高层 Critic 给低层 Policy 提供长期回报信号。
从而解决:
- Delayed reward
- Credit assignment
- Long horizon planning
问题。
Linked Mentions
-
No backlinks found.