Skip to content

多模型编排 — Fugu 与 Fusion 的编排秘密

利用低成本开源模型进行优化组合,在深度研究、代码审查等复杂任务上表现已能接近甚至超越昂贵的单体巨兽。两个代表方案:Sakana AI 的 Fugu(黑盒学习派)和 OpenRouter 的 Fusion(白盒规则派),展示了「架构优化」有时更胜于单纯堆叠参数。

目录


背景与行业痛点

出口管制与依赖风险

美国政府对 Fable 5 等地表最强模型的出口管制,让科技圈意识到将所有业务逻辑「绑死」在单一闭源模型上的巨大风险。多模型编排成为企业确保「AI 主权」与风险对冲的战略备胎。

臭皮匠战术的逆袭

Fugu 与 Fusion 证明:低成本开源模型 + 好的编排策略 = 接近甚至超越顶级单体模型的性能。关键不在模型变聪明,而在架构设计。

单模型依赖风险:
┌─────────────────────┐
│   业务逻辑          │
│        ↓            │
│   单一闭源 API      │  ← 地缘政治风险 / 供应商锁定 / 成本不可控
│   (e.g. GPT-5)     │
└─────────────────────┘

多模型编排架构:
┌─────────────────────┐
│   业务逻辑          │
│        ↓            │
│   编排层            │  ← 可插拔、可替换、成本可控
│  ┌──┼──┐           │
│  ↓  ↓  ↓           │
│ M1 M2 M3 ...       │  ← 开源 + 闭源混合
└─────────────────────┘

Fugu (Sakana AI) 技术拆解

核心概念:轻量级协调器

基于两篇 ICLR 2026 论文(Trinity 与 Conductor),Fugu 的核心是一个仅 0.6B 参数的轻量协调器,它不需要自己懂所有知识,只需精准分工。

三位一体角色分配

         ┌──────────────┐
         │   协调器       │  0.6B 参数
         │ (Conductor)   │  基于 CMA-ES 训练
         └──┬────┬────┬─┘
            │    │    │
     ┌──────┘    │    └──────┐
     ↓           ↓           ↓
┌─────────┐ ┌────────┐ ┌──────────┐
│ Thinker │ │ Worker │ │ Verifier │
│ (思考者) │ │(工作者) │ │ (验证者)  │
└─────────┘ └────────┘ └──────────┘
角色 职责 模型选择
Thinker(思考者) 分析任务、规划步骤 推理能力强的模型
Worker(工作者) 执行具体子任务 领域专精模型
Verifier(验证者) 检查结果、发现错误 擅长找 Bug 的模型

数学底层:Sep-CMA-ES

不同于传统强化学习(RL)易陷入局部最优,Fugu 采用「可分离的协方差矩阵自适应进化策略(Separable Covariance Matrix Adaptation Evolution Strategy)」。

  • 利用快 \(\epsilon\)-可分性数学特性
  • 在高维度、预算受限的搜索空间中,高效找出最优调度策略
  • 不需要梯度信息,适合黑盒优化场景

实战表现

在代码审查等工程任务中,早期用户反馈 Fugu 抓出的 Bug 比顶级单体模型多出数倍。


Fusion (OpenRouter) 技术拆解

核心概念:结构化合成管道

Fusion 不依赖学习,而是通过工程化的三步走管道实现多模型合成。

三步走架构

步骤 1:并行分发               步骤 2:判官分析              步骤 3:大老合成
┌──────────────────────┐    ┌──────────────────────┐    ┌──────────────────────┐
│ 问题 → 同时派发给       │    │ 判官模型结构化分析:     │    │ 顶级模型根据判官报告    │
│ 1~8 个不同模型         │    │ • 共识(高信赖度)      │    │ 提炼最终答案           │
│ + 联网搜索工具          │───→│ • 矛盾(争议点)       │───→│                      │
│                       │    │ • 盲点               │    │ (e.g. OP 4.8)        │
└──────────────────────┘    └──────────────────────┘    └──────────────────────┘

判官分析的关键机制

分析维度 说明 价值
共识 多模型一致认同的结论 高信赖度,可直接采纳
矛盾 模型间存在分歧的点 需深入分析,往往是难点
盲点 所有模型都忽略的内容 揭示系统性缺陷

架构红利

即使是顶级模型自己与自己组合,经过这套流程分数也能拔高 6~7 个百分点。证明成功关键在于「架构优化」而非模型变聪明。


第一性原理对比

特性 Fugu (Sakana AI) Fusion (OpenRouter)
底层流派 基于学习的黑盒协调(进化算法) 基于规则的白盒协调(服务端管道)
核心隐喻 眼光毒辣的 HR 调配顶尖专家 人类团队开会,汇总意见由 Leader 拍板
学习需求 需要训练协调器 无需训练,即插即用
最佳场景 长期多步骤复杂任务(论文复现) 深度研究报告、资料对比分析
部署复杂度 中(需训练 + 推理) 低(API 调用即可)
可解释性 低(黑盒调度策略) 高(结构化判官报告)

选型决策树

你需要多模型编排?
├─ 任务是否需要长期多步骤执行?
│  ├─ 是 → 长期任务,需动态调整策略
│  │       → 偏好 Fugu(学习型协调器,越用越好)
│  └─ 否 → 单次请求型任务
│
├─ 是否需要快速部署、低启动成本?
│  ├─ 是 → 无需训练,API 即用
│  │       → 偏好 Fusion(白盒规则,即插即用)
│  └─ 否 → 可投入训练资源
│
├─ 是否需要高可解释性?
│  ├─ 是 → 需要结构化分析报告
│  │       → 偏好 Fusion(判官报告清晰可见)
│  └─ 否 → 效果优先,不关心黑盒
│
└─ 最佳实践:两者混合
    Fugu 处理长期复杂流程
    Fusion 处理单次深度分析

多模型编排设计框架

设计原则

原则 1:模型多样性

拒绝同质化模型堆叠。团队需纳入不同知识结构与推理风格的模型:

❌ 错误做法:GPT-4 + GPT-4o + GPT-4-turbo
   → 同质化严重,共识多、矛盾少,无互补价值

✅ 正确做法:DeepSeek(代码)+ Claude(逻辑)+ Llama(常识)
   → 异质化组合,共识/矛盾/盲点分析才有意义

原则 2:智能协调机制

放弃手写大量 If-Else 规则,应导入结构化提取共识/矛盾的机制,或用小模型动态调度大模型。

原则 3:高质量合成灵魂

多模型系统的成败取决于最后的「判官审视」与「融合提炼」,绝非简单的文本拼接。

工程师落地清单

  • ✅ 设计可插拔的代理池(Agent Pool)架构
  • ✅ 纳入不同知识结构和推理风格的模型
  • ✅ 导入结构化的共识/矛盾/盲点分析机制
  • ✅ 用小模型做协调器,大模型做执行者
  • ✅ 将「绑死单一闭源 API」转为随时可替换的模型组合
  • ❌ 不要简单拼接多个模型的输出文本
  • ❌ 不要堆叠同质化模型(同一家族的变体)
  • ❌ 不要手写复杂 If-Else 调度规则

全文总结

单体超级模型的时代并未结束,但在深度研究与代码验证等特定任务上,「模型编排」已成为一条全新且极具成本优势的性能扩展路线(Scaling Law 的新解)

架构设计的分工协作力量,有时更胜于单纯堆叠模型参数规模。以几十分之一的预算成本,搭建出超越当前顶级闭源模型性能的专属 AI 团队,正在从设想变为现实。


参考资料

相关笔记