如何让 LLM Agent 学会长时间、多轮决策（long-horizon decision making）？

论文提出了一个 Hierarchical RL 框架 —— ArCHer (Actor-Critic Framework with a Hierarchical Structure)

一句话总结

ArCHer 的核心思想：

把 Agent 的 RL 拆成两层：

高层：学习每一轮对话 / Action 的价值（Utterance-level RL）

低层：学习每个 token 怎么生成（Token-level RL）

用高层 Critic 给低层 Policy 提供长期回报信号。

从而解决：

问题。