Skip to content

StraTA - 用战略轨迹抽象解决 AI Agent 健忘症

AI Agent 在长程任务中"走一步忘一步"是当前最大的痛点之一。StraTA 提出了一个朴素的解法:先画地图再出发。通过分层 GRPO 训练,让 7B 开源模型在科学推理、网页购物等场景中碾压闭源巨头。


核心问题:AI Agent 的"健忘症"

当前主流 AI Agent 的工作模式是反应式(Reactive):每一步都根据当前状态决定下一步做什么,但缺乏对全局目标的持续记忆。

典型症状: - 给 Agent 一个复合指令(查数据 → 做表格 → 写邮件),它执行完前两步就忘了第三步 - 追问时 Agent 会重新分析,甚至推翻前面已完成的工作 - 越复杂的任务,遗忘率越高

根本原因: 纯反应式决策在长程任务中面临两个致命问题: 1. 探索不足(Shortsighted Exploration) — 没有"地图"指引,Agent 容易陷入局部最优 2. 信用分配灾难(Credit Assignment Problem) — 任务成功/失败后,无法判断哪一步的决策是关键


StraTA 的核心思路

一句话:在执行动作之前,先生成一段全局战略(Strategy),然后用这个战略约束后续所有执行步骤。

用户输入
    |
    v
+-------------------+
| 战略生成器 (Policy) | --> 输出一段 Strategy(紧凑文本)
+-------------------+         |
                              v
                    +-------------------+
                    | 动作执行器 (Policy) | --> 每一步都参考 Strategy
                    +-------------------+

这就像出门旅行先做攻略 vs 走到哪算哪。


技术架构:分层 GRPO 训练

GRPO 回顾

GRPO(Group Relative Policy Optimization)是 DeepSeek 提出的强化学习算法,无需 Critic 网络,直接用组内相对排名计算奖励。StraTA 将其扩展到 Agent 多回合场景。

分层设计

StraTA 将训练分为两层,联合优化:

层级 角色 输入 输出
高层 战略生成器 任务初始状态 紧凑的 Strategy 文本
低层 动作执行器 当前状态 + Strategy 具体动作

训练流程:

1. 从任务初始状态采样多个 Strategy
2. 对每个 Strategy,执行完整的动作轨迹 (Trajectory)
3. 用任务最终奖励同时更新两层:
   - 高层:这个 Strategy 好不好?
   - 低层:在这个 Strategy 下,每步动作好不好?

关键创新: 低层策略的 reward 不只看动作本身,还参考高层 Strategy 的质量,解决了信用分配问题。


三个核心组件

1. 多样化战略采样(Farthest Point Sampling)

问题: 如果所有 Strategy 都差不多(同质化),Agent 学不到真正好的策略。

解法: 借用 3D 几何中的最远点采样算法。

已有策略池: S1, S2, S3 ...

最远点采样:
  1. 随机选 S1 作为第一个
  2. 选距离 S1 最远的 S2
  3. 选距离 {S1, S2} 都最远的 S3
  4. 重复直到采够 N 个

距离度量: 策略文本的 Embedding 余弦距离

这确保了策略的多样性,逼迫 Agent 探索不同的解题路径。

2. 关键自我反思(Critical Self-Judgment)

问题: Agent 需要能判断自己执行得好不好。

解法: 在轨迹结束后,让模型自我评估:

反思 Prompt:
"回顾你刚才的执行过程,指出哪些步骤可能出了问题,
并给出改进建议。"

反思结果被用作辅助奖励信号,帮助模型从失败中学习。

3. 分层 GRPO Rollout

采样阶段:
  For each task:
    1. 高层生成 K 个 Strategy(最远点采样保证多样性)
    2. 对每个 Strategy,低层执行 G 条轨迹
    3. 每条轨迹获得环境奖励 reward

优化阶段:
  高层 GRPO: 比较 K 个 Strategy 对应的轨迹平均奖励
  低层 GRPO: 比较同一 Strategy 下 G 条轨迹的奖励
  两层共享奖励信号,但信用归因不同

实验结果

核心数据

环境 基线 (GRPO) StraTA 提升
ALFWorld(家务模拟) 89.5% 93.1% +3.6pp
WebShop(网页购物) 5.3% → 训练后 59.3% 84.2% 从 5.3% 到 84.2%,15 倍提升
SciWorld(科学推理) ~50% 63.5 超越 Claude Sonnet (57.4)

与闭源模型对比(SciWorld)

模型 类型 SciWorld 得分
Claude Sonnet 闭源 57.4
GPT-4o 闭源 ~52
StraTA (7B) 开源 63.5

一个 7B 参数的开源小模型,在科学推理基准上超越了所有闭源模型。

样本效率

StraTA 在更少的训练轮次下达到更高的性能,证明战略抽象有效减少了无意义的探索。


落地启示

应用层开发者(不花算力)

在 Workflow 顶部加一个"全局战略规划器"节点:

用户输入
    |
    v
[LLM 节点: 生成 Strategy]  <-- 新增,唯一职责是输出策略
    |
    v
[Agent 节点: 执行任务]       <-- System Prompt 注入 Strategy

最佳实践:

  • ✅ Strategy 节点使用独立 prompt,明确要求输出紧凑的战略规划
  • ✅ 将 Strategy 作为系统级上下文注入所有后续 Agent 节点
  • ✅ 简单架构改动,零额外算力成本
  • ❌ 不要让同一个 LLM 同时负责规划和执行

模型层从业者

  • SFT 的天花板已现 — 人工标注的 step-by-step 数据昂贵且有限
  • 仿生环境 + 规则奖励 + RL 是王道 — 构建好的仿真环境,写好打分规则,让模型自己在环境中试错学习
  • StraTA 的分层 GRPO + 自我反思框架是一个可复用的范式

局限性

局限 说明
策略静态不变 开局生成的 Strategy 贯穿全程,无法应对环境突变(如网页 404、接口下线)
仿真器与现实差距 ALFWorld/WebShop 是理想化环境,真实互联网有延迟、弹窗、反爬等干扰
策略质量瓶颈 如果高层生成了错误的 Strategy,低层执行越好可能偏离目标越远

"每个人在被一拳打到脸上之前,都有一个完美的计划。" — Mike Tyson


哲学洞察:什么是高级智能?

StraTA 讨论的核心命题:真正的智能不只是对眼前刺激做出反应,而是建立一种"意向性"(Intentionality) — 在大脑中构建一个尚未发生的未来愿景,并在通往愿景的漫长道路上,用这个愿景对抗每一个当下的局部最优。

这不是代码的升级,是对机器认知模型的一次重塑。


参考资料