Skip to content

Agent Arena 新榜单 — AI 评测从智商测试到工作能力测试

核心变化:模型时代拼的是智商,Agent 时代拼的是组织能力。Arena 发布的 Agent Arena 榜单不再只比较模型回答好不好,而是看 AI Agent 在真实任务里能不能完成工作、调用工具、修复错误、接受用户纠正,并最终交付结果。


Agent Arena 是什么?

Agent Arena(arena.ai/leaderboard/agent)是 LMSYS/Arena Intelligence 推出的 Agent 能力专属排行榜,与传统的 Chatbot Arena 有本质区别:

维度 Chatbot Arena Agent Arena
评测方式 静态问答(模型回答好不好) 真实任务(模型能不能做)
评估维度 语义质量、帮助度、流畅度 工具调用、错误修复、任务完成、可操控性
数据来源 Crowdsourced 对比投票 真实 Agent Mode 使用会话
核心问题 "模型会不会说?" "模型能不能做?"
截止 2026-05-30 数百万次投票 349,257 sessions / 18 models

榜单排名(2026-05-30)

综合排名(Net Improvement)

  Rank  Model                        Score         Labs
  ────  ──────────────────────────  ────────────  ─────────
   #1   GPT 5.5 (High)              10.66% ±1.60  OpenAI
   #2   Claude Opus 4.7 (Thinking)   9.47% ±1.50  Anthropic
   #3   GPT 5.4 (High)               8.92% ±1.68  OpenAI
   #4   Claude Opus 4.6               8.14% ±1.46  Anthropic
   #5   GPT 5.5                       7.47% ±1.54  OpenAI
   #6   Claude Opus 4.7                6.95% ±1.46  Anthropic
   #7   Claude Sonnet 4.6              4.59% ±1.37  Anthropic
   #8   GLM 5.1                        3.38% ±2.00  Z.ai (MIT 开源)
   #9   Gemini 3.1 Pro Preview         1.38% ±1.45  Google
  #10   Kimi K2.6                      0.56% ±1.64  Moonshot

关键发现: - GPT 5.5 (High) 综合第一,在多个分项信号中也领跑 - Claude Opus 4.7 (Thinking) 紧随其后,Thinking 模式在 Agent 场景中价值显著 - GLM 5.1 是唯一进入 Top 10 的国产/开源模型,排名第 8 - Google Gemini 表现意外靠后,仅排第 9-10


五大评测信号解读

Agent Arena 引入了五个细粒度信号,比单一总分更能反映模型的真实能力:

信号 1:确认成功率(Confirmed Success)

模型多常让用户确认任务已完成

  #1  Claude Opus 4.7 (Thinking)  7.95%    ← 稳定性之王
  #2  Claude Opus 4.7              7.17%
  #3  GPT 5.5 (High)               7.06%
  #6  GLM 5.1                       4.63%    ← 国产最佳

洞察:Claude Thinking 模式在任务确认率上遥遥领先。Thinking 模式的"慢思考"让它在 Agent 场景中更能确保任务真正完成,而非半途而废。

信号 2:用户满意度(Praise vs Complaint)

模型获得的正面评价比负面评价多多少

  #1  GPT 5.5 (High)              14.95%    ← 用户体验最好
  #2  Claude Opus 4.7 (Thinking)   12.18%
  #3  GPT 5.4 (High)                9.72%
  #7  GLM 5.1                        3.79%

洞察:GPT 5.5 (High) 在用户体验上明显领先,正面评价比第二名高近 3 个百分点。

信号 3:可操控性(Steerability)

模型多大程度遵循用户指令方向

  #1  GPT 5.5 (High)              12.03%    ← 最听话
  #2  GPT 5.4 (High)               10.12%
  #3  Claude Opus 4.7 (Thinking)    9.04%
  #7  Gemini 3.1 Pro Preview       4.33%

洞察:OpenAI 模型在遵循指令方面表现最好。Agent 场景中"听懂并执行用户要求"是核心能力。

信号 4:命令恢复(Bash Recovery)

命令失败后模型多快能恢复

  #1  GPT 5.5 (High)              17.73%    ← 最强纠错
  #2  Claude Sonnet 4.6            17.23%    ← 性价比之选
  #3  Claude Opus 4.7 (Thinking)   16.69%
  #8  GLM 5.1                       10.37%

洞察:Sonnet 4.6 在纠错能力上与 Opus 4.7 (Thinking) 几乎持平,考虑到 Sonnet 的低价格,在 Agent 场景中性价比极高。

信号 5:工具幻觉(Tool Hallucination)

模型多大程度会"发明"不存在的工具

  #1  GPT 5.5                      1.52%    ← 最低幻觉
  #2  Kimi K2.6                      1.52%
  #3  Minimax M2.7                   1.52%
  #5  GLM 5.1                        1.52%

洞察:顶级模型的工具幻觉率都在 1.5% 左右,差异不大。这个维度目前区分度较低。


GLM 5.1 — 国产模型的突破信号

GLM 5.1(智谱 AI)在 Agent Arena 中排第 8,是国产/开源模型的最高名次。

技术规格

规格 数值
总参数 744B(MoE 架构)
活跃参数 40-44B / token
专家架构 256 experts,8 active / token
Context window 200K tokens
训练数据 28.5T tokens
训练硬件 100,000 颗华为昇腾 910B
协议 MIT(开源权重)

核心亮点

  • 编码能力达到 Claude Opus 4.6 的 94.6%(45.3 vs 47.9 coding score)
  • SWE-bench 77.8%,与 Claude Opus 4.6(80.8%)仅差 3 个百分点
  • Chatbot Arena 中开源模型第一(ELO 1451)
  • 完全脱离 Nvidia 硬件训练,地缘政治意义重大
  • 价格极具竞争力:$1.00 / $3.20 per 1M tokens(Opus 4.6 是 \(15/\)75)

Agent Arena 中 GLM 5.1 的表现

信号 GLM 5.1 第一名(对比)
确认成功 4.63% 7.95%(Claude T)
用户满意度 3.79% 14.95%(GPT 5.5H)
可操控性 未进前十 12.03%(GPT 5.5H)
命令恢复 10.37% 17.73%(GPT 5.5H)
工具幻觉 1.52% 1.52%(并列)

评价:GLM 5.1 在综合排名中挤入 Top 10,但在各分项信号中与头部模型差距明显。视频描述中的"靠成本撕口子"是准确判断 — GLM 5.1 的竞争力主要在性价比(开源 + 低价格 + 接近前沿的能力),而非单点能力领先。


评测范式的转变

从 Chatbot 到 Agent 的关键差异

  Chatbot Arena                    Agent Arena
  ─────────────                    ────────────
  输入 → 文字问答                    输入 → 真实任务
  输出 → 文字回答                    输出 → 工具调用 + 代码执行 + 修正
  评分 → 人类对比投票                评分 → 多维信号追踪
  能力 → 语言质量                    能力 → 组织协调 + 纠错 + 完成度

这意味着什么

  1. "说得好"不再等于"做得好" — Chatbot Arena 的排名格局在 Agent Arena 中出现明显洗牌
  2. Thinking 模式的价值被验证 — Claude Opus 4.7 (Thinking) 在确认成功率上遥遥领先
  3. 纠错能力成为关键分水岭 — 命令恢复(Bash Recovery)是区分"能用"和"好用"的重要信号
  4. 成本竞争开辟新维度 — Sonnet 4.6 在纠错能力上接近 Opus 4.7,但价格低得多

选型决策树

  Agent 使用场景
     │
     ├─ 追求最高成功率 → Claude Opus 4.7 (Thinking)
     │
     ├─ 追求最佳用户体验 → GPT 5.5 (High)
     │
     ├─ 预算有限但需要前沿能力 → Claude Sonnet 4.6(性价比)
     │
     ├─ 开源 / 自部署需求 → GLM 5.1(MIT 协议)
     │
     └─ 成本极度敏感 → DeepSeek V3.2($0.27/$1.10)

参考资料

相关笔记