如何让 LLM Agent 学会长时间、多轮决策(long-horizon decision making)?

论文提出了一个 Hierarchical RL 框架 —— ArCHer (Actor-Critic Framework with a Hierarchical Structure)

一句话总结

ArCHer 的核心思想:

把 Agent 的 RL 拆成两层:

  • 高层:学习每一轮对话 / Action 的价值(Utterance-level RL)
  • 低层:学习每个 token 怎么生成(Token-level RL)

用高层 Critic 给低层 Policy 提供长期回报信号。

从而解决:

  • Delayed reward
  • Credit assignment
  • Long horizon planning

问题。