Agent Arena 新榜单 — AI 评测从智商测试到工作能力测试¶

核心变化：模型时代拼的是智商，Agent 时代拼的是组织能力。Arena 发布的 Agent Arena 榜单不再只比较模型回答好不好，而是看 AI Agent 在真实任务里能不能完成工作、调用工具、修复错误、接受用户纠正，并最终交付结果。

Agent Arena 是什么？¶

Agent Arena（arena.ai/leaderboard/agent）是 LMSYS/Arena Intelligence 推出的 Agent 能力专属排行榜，与传统的 Chatbot Arena 有本质区别：

维度	Chatbot Arena	Agent Arena
评测方式	静态问答（模型回答好不好）	真实任务（模型能不能做）
评估维度	语义质量、帮助度、流畅度	工具调用、错误修复、任务完成、可操控性
数据来源	Crowdsourced 对比投票	真实 Agent Mode 使用会话
核心问题	"模型会不会说？"	"模型能不能做？"
截止 2026-05-30	数百万次投票	349,257 sessions / 18 models

榜单排名（2026-05-30）¶

综合排名（Net Improvement）¶

  Rank  Model                        Score         Labs
  ────  ──────────────────────────  ────────────  ─────────
   #1   GPT 5.5 (High)              10.66% ±1.60  OpenAI
   #2   Claude Opus 4.7 (Thinking)   9.47% ±1.50  Anthropic
   #3   GPT 5.4 (High)               8.92% ±1.68  OpenAI
   #4   Claude Opus 4.6               8.14% ±1.46  Anthropic
   #5   GPT 5.5                       7.47% ±1.54  OpenAI
   #6   Claude Opus 4.7                6.95% ±1.46  Anthropic
   #7   Claude Sonnet 4.6              4.59% ±1.37  Anthropic
   #8   GLM 5.1                        3.38% ±2.00  Z.ai (MIT 开源)
   #9   Gemini 3.1 Pro Preview         1.38% ±1.45  Google
  #10   Kimi K2.6                      0.56% ±1.64  Moonshot

关键发现： - GPT 5.5 (High) 综合第一，在多个分项信号中也领跑 - Claude Opus 4.7 (Thinking) 紧随其后，Thinking 模式在 Agent 场景中价值显著 - GLM 5.1 是唯一进入 Top 10 的国产/开源模型，排名第 8 - Google Gemini 表现意外靠后，仅排第 9-10

五大评测信号解读¶

Agent Arena 引入了五个细粒度信号，比单一总分更能反映模型的真实能力：

信号 1：确认成功率（Confirmed Success）¶

模型多常让用户确认任务已完成

  #1  Claude Opus 4.7 (Thinking)  7.95%    ← 稳定性之王
  #2  Claude Opus 4.7              7.17%
  #3  GPT 5.5 (High)               7.06%
  #6  GLM 5.1                       4.63%    ← 国产最佳

洞察：Claude Thinking 模式在任务确认率上遥遥领先。Thinking 模式的"慢思考"让它在 Agent 场景中更能确保任务真正完成，而非半途而废。

信号 2：用户满意度（Praise vs Complaint）¶

模型获得的正面评价比负面评价多多少

  #1  GPT 5.5 (High)              14.95%    ← 用户体验最好
  #2  Claude Opus 4.7 (Thinking)   12.18%
  #3  GPT 5.4 (High)                9.72%
  #7  GLM 5.1                        3.79%

洞察：GPT 5.5 (High) 在用户体验上明显领先，正面评价比第二名高近 3 个百分点。

信号 3：可操控性（Steerability）¶

模型多大程度遵循用户指令方向

  #1  GPT 5.5 (High)              12.03%    ← 最听话
  #2  GPT 5.4 (High)               10.12%
  #3  Claude Opus 4.7 (Thinking)    9.04%
  #7  Gemini 3.1 Pro Preview       4.33%

洞察：OpenAI 模型在遵循指令方面表现最好。Agent 场景中"听懂并执行用户要求"是核心能力。

信号 4：命令恢复（Bash Recovery）¶

命令失败后模型多快能恢复

  #1  GPT 5.5 (High)              17.73%    ← 最强纠错
  #2  Claude Sonnet 4.6            17.23%    ← 性价比之选
  #3  Claude Opus 4.7 (Thinking)   16.69%
  #8  GLM 5.1                       10.37%

洞察：Sonnet 4.6 在纠错能力上与 Opus 4.7 (Thinking) 几乎持平，考虑到 Sonnet 的低价格，在 Agent 场景中性价比极高。

信号 5：工具幻觉（Tool Hallucination）¶

模型多大程度会"发明"不存在的工具

  #1  GPT 5.5                      1.52%    ← 最低幻觉
  #2  Kimi K2.6                      1.52%
  #3  Minimax M2.7                   1.52%
  #5  GLM 5.1                        1.52%

洞察：顶级模型的工具幻觉率都在 1.5% 左右，差异不大。这个维度目前区分度较低。

GLM 5.1 — 国产模型的突破信号¶

GLM 5.1（智谱 AI）在 Agent Arena 中排第 8，是国产/开源模型的最高名次。

技术规格¶

规格	数值
总参数	744B（MoE 架构）
活跃参数	40-44B / token
专家架构	256 experts，8 active / token
Context window	200K tokens
训练数据	28.5T tokens
训练硬件	100,000 颗华为昇腾 910B
协议	MIT（开源权重）

核心亮点¶

编码能力达到 Claude Opus 4.6 的 94.6%（45.3 vs 47.9 coding score）
SWE-bench 77.8%，与 Claude Opus 4.6（80.8%）仅差 3 个百分点
Chatbot Arena 中开源模型第一（ELO 1451）
完全脱离 Nvidia 硬件训练，地缘政治意义重大
价格极具竞争力：$1.00 / $3.20 per 1M tokens（Opus 4.6 是 $15/$75）

Agent Arena 中 GLM 5.1 的表现¶

信号	GLM 5.1	第一名（对比）
确认成功	4.63%	7.95%（Claude T）
用户满意度	3.79%	14.95%（GPT 5.5H）
可操控性	未进前十	12.03%（GPT 5.5H）
命令恢复	10.37%	17.73%（GPT 5.5H）
工具幻觉	1.52%	1.52%（并列）

评价：GLM 5.1 在综合排名中挤入 Top 10，但在各分项信号中与头部模型差距明显。视频描述中的"靠成本撕口子"是准确判断 — GLM 5.1 的竞争力主要在性价比（开源 + 低价格 + 接近前沿的能力），而非单点能力领先。

评测范式的转变¶

从 Chatbot 到 Agent 的关键差异¶

  Chatbot Arena                    Agent Arena
  ─────────────                    ────────────
  输入 → 文字问答                    输入 → 真实任务
  输出 → 文字回答                    输出 → 工具调用 + 代码执行 + 修正
  评分 → 人类对比投票                评分 → 多维信号追踪
  能力 → 语言质量                    能力 → 组织协调 + 纠错 + 完成度

这意味着什么¶

"说得好"不再等于"做得好" — Chatbot Arena 的排名格局在 Agent Arena 中出现明显洗牌
Thinking 模式的价值被验证 — Claude Opus 4.7 (Thinking) 在确认成功率上遥遥领先
纠错能力成为关键分水岭 — 命令恢复（Bash Recovery）是区分"能用"和"好用"的重要信号
成本竞争开辟新维度 — Sonnet 4.6 在纠错能力上接近 Opus 4.7，但价格低得多

选型决策树¶

  Agent 使用场景
     │
     ├─ 追求最高成功率 → Claude Opus 4.7 (Thinking)
     │
     ├─ 追求最佳用户体验 → GPT 5.5 (High)
     │
     ├─ 预算有限但需要前沿能力 → Claude Sonnet 4.6（性价比）
     │
     ├─ 开源 / 自部署需求 → GLM 5.1（MIT 协议）
     │
     └─ 成本极度敏感 → DeepSeek V3.2（$0.27/$1.10）