StraTA - 用战略轨迹抽象解决 AI Agent 健忘症¶

AI Agent 在长程任务中"走一步忘一步"是当前最大的痛点之一。StraTA 提出了一个朴素的解法：先画地图再出发。通过分层 GRPO 训练，让 7B 开源模型在科学推理、网页购物等场景中碾压闭源巨头。

核心问题：AI Agent 的"健忘症"¶

当前主流 AI Agent 的工作模式是反应式（Reactive）：每一步都根据当前状态决定下一步做什么，但缺乏对全局目标的持续记忆。

典型症状： - 给 Agent 一个复合指令（查数据 → 做表格 → 写邮件），它执行完前两步就忘了第三步 - 追问时 Agent 会重新分析，甚至推翻前面已完成的工作 - 越复杂的任务，遗忘率越高

根本原因： 纯反应式决策在长程任务中面临两个致命问题： 1. 探索不足（Shortsighted Exploration） — 没有"地图"指引，Agent 容易陷入局部最优 2. 信用分配灾难（Credit Assignment Problem） — 任务成功/失败后，无法判断哪一步的决策是关键

StraTA 的核心思路¶

一句话：在执行动作之前，先生成一段全局战略（Strategy），然后用这个战略约束后续所有执行步骤。

用户输入
    |
    v
+-------------------+
| 战略生成器 (Policy) | --> 输出一段 Strategy（紧凑文本）
+-------------------+         |
                              v
                    +-------------------+
                    | 动作执行器 (Policy) | --> 每一步都参考 Strategy
                    +-------------------+

这就像出门旅行先做攻略 vs 走到哪算哪。

技术架构：分层 GRPO 训练¶

GRPO 回顾¶

GRPO（Group Relative Policy Optimization）是 DeepSeek 提出的强化学习算法，无需 Critic 网络，直接用组内相对排名计算奖励。StraTA 将其扩展到 Agent 多回合场景。

分层设计¶

StraTA 将训练分为两层，联合优化：

层级	角色	输入	输出
高层	战略生成器	任务初始状态	紧凑的 Strategy 文本
低层	动作执行器	当前状态 + Strategy	具体动作

训练流程：

1. 从任务初始状态采样多个 Strategy
2. 对每个 Strategy，执行完整的动作轨迹 (Trajectory)
3. 用任务最终奖励同时更新两层：
   - 高层：这个 Strategy 好不好？
   - 低层：在这个 Strategy 下，每步动作好不好？

关键创新： 低层策略的 reward 不只看动作本身，还参考高层 Strategy 的质量，解决了信用分配问题。

三个核心组件¶

1. 多样化战略采样（Farthest Point Sampling）¶

问题： 如果所有 Strategy 都差不多（同质化），Agent 学不到真正好的策略。

解法： 借用 3D 几何中的最远点采样算法。

已有策略池: S1, S2, S3 ...

最远点采样:
  1. 随机选 S1 作为第一个
  2. 选距离 S1 最远的 S2
  3. 选距离 {S1, S2} 都最远的 S3
  4. 重复直到采够 N 个

距离度量: 策略文本的 Embedding 余弦距离

这确保了策略的多样性，逼迫 Agent 探索不同的解题路径。

2. 关键自我反思（Critical Self-Judgment）¶

问题： Agent 需要能判断自己执行得好不好。

解法： 在轨迹结束后，让模型自我评估：

反思 Prompt:
"回顾你刚才的执行过程，指出哪些步骤可能出了问题，
并给出改进建议。"

反思结果被用作辅助奖励信号，帮助模型从失败中学习。

3. 分层 GRPO Rollout¶

采样阶段:
  For each task:
    1. 高层生成 K 个 Strategy（最远点采样保证多样性）
    2. 对每个 Strategy，低层执行 G 条轨迹
    3. 每条轨迹获得环境奖励 reward

优化阶段:
  高层 GRPO: 比较 K 个 Strategy 对应的轨迹平均奖励
  低层 GRPO: 比较同一 Strategy 下 G 条轨迹的奖励
  两层共享奖励信号，但信用归因不同

实验结果¶

核心数据¶

环境	基线 (GRPO)	StraTA	提升
ALFWorld（家务模拟）	89.5%	93.1%	+3.6pp
WebShop（网页购物）	5.3% → 训练后 59.3%	84.2%	从 5.3% 到 84.2%，15 倍提升
SciWorld（科学推理）	~50%	63.5	超越 Claude Sonnet (57.4)

与闭源模型对比（SciWorld）¶

模型	类型	SciWorld 得分
Claude Sonnet	闭源	57.4
GPT-4o	闭源	~52
StraTA (7B)	开源	63.5

一个 7B 参数的开源小模型，在科学推理基准上超越了所有闭源模型。

样本效率¶

StraTA 在更少的训练轮次下达到更高的性能，证明战略抽象有效减少了无意义的探索。

落地启示¶

应用层开发者（不花算力）¶

在 Workflow 顶部加一个"全局战略规划器"节点：

用户输入
    |
    v
[LLM 节点: 生成 Strategy]  <-- 新增，唯一职责是输出策略
    |
    v
[Agent 节点: 执行任务]       <-- System Prompt 注入 Strategy

最佳实践：

✅ Strategy 节点使用独立 prompt，明确要求输出紧凑的战略规划
✅ 将 Strategy 作为系统级上下文注入所有后续 Agent 节点
✅ 简单架构改动，零额外算力成本
❌ 不要让同一个 LLM 同时负责规划和执行

模型层从业者¶

SFT 的天花板已现 — 人工标注的 step-by-step 数据昂贵且有限
仿生环境 + 规则奖励 + RL 是王道 — 构建好的仿真环境，写好打分规则，让模型自己在环境中试错学习
StraTA 的分层 GRPO + 自我反思框架是一个可复用的范式

局限性¶

局限	说明
策略静态不变	开局生成的 Strategy 贯穿全程，无法应对环境突变（如网页 404、接口下线）
仿真器与现实差距	ALFWorld/WebShop 是理想化环境，真实互联网有延迟、弹窗、反爬等干扰
策略质量瓶颈	如果高层生成了错误的 Strategy，低层执行越好可能偏离目标越远

"每个人在被一拳打到脸上之前，都有一个完美的计划。" — Mike Tyson

哲学洞察：什么是高级智能？¶

StraTA 讨论的核心命题：真正的智能不只是对眼前刺激做出反应，而是建立一种"意向性"（Intentionality） — 在大脑中构建一个尚未发生的未来愿景，并在通往愿景的漫长道路上，用这个愿景对抗每一个当下的局部最优。

这不是代码的升级，是对机器认知模型的一次重塑。