Higsfield Agent 基础设施全解¶
Higsfield 不是通用的图片生成器,而是为 Agent 生态打造的创意执行层。通过 MCP、CLI、Skills、Soul ID、Virality Predictor 和 Supercomputer,填补了 AI Agent 从规划到执行的最后一公里。
目录¶
- #Higsfield 平台定位
- #为什么专为 Agent 而非人类
- #MCP Server:探索式对话集成
- #CLI:生产级批处理管道
- #MCP vs CLI 选择指南
- #Skills 系统:编码正确决策
- #Soul ID:解决角色一致性问题
- #Virality Predictor:自动化质量门控
- #Supercomputer:端到端创意 Agent
Higsfield 平台定位¶
不是什么¶
- ❌ 不是通用图片生成器(不做最便宜的 Stable Diffusion)
- ❌ 不是快速原型工具
- ❌ 不是物理超级计算机
是什么¶
一个专注电影级品质输出的创意平台,核心产品:
| 产品 | 定位 | 特点 |
|---|---|---|
| Soul | 旗舰模型 | 时尚级高写实视觉内容 |
| Cinema Studio | AI 电影制作 | 镜头运动、镜头选择、灯光、角色一致性 |
| Marketing Studio | 品牌广告管道 | 输入产品 URL → 输出可直接投放的广告素材 |
| 第三方模型 | 统一入口 | Seedance 2.0、Sora 2、Veo 3.1、Kling 3.0、Flux 2 等 30+ 模型 |
Higsfield 统一入口
┌─────────────────────────────────────────┐
│ Soul Seedance 2.0 Sora 2 │
│ Veo 3.1 Kling 3.0 Flux 2 │
│ GPT Image 2 Minimax Hailuo ... │
│ 30+ 模型,同一账户、同一积分 │
└─────────────────────────────────────────┘
│
Agent 通过同一 URL 访问全部
为什么专为 Agent 而非人类¶
历史瓶颈¶
过去的工作流:
Agent 规划 → Agent 写文案 → Agent 组织 Brief
│
▼ 人类手动操作 ▼
登录平台 → 输入提示词 → 等渲染
→ 下载文件 → 交回 Agent
Agent 做了所有思考,人类做了所有搬运
Higsfield 的选择¶
Higsfield 明确点名四个 Agent:Claude Code、OpenClaw、Hermes Agent、NemoClaw。
| Agent | 类型 | 部署方式 | 与 Higsfield 的互补关系 |
|---|---|---|---|
| Claude Code | 终端编码 Agent | 本地 | Agent 推理在本地,生成在云端 |
| OpenClaw | 个人 AI 操作系统 | VPS(常驻) | 无人值守,7×24 自动化 |
| Hermes Agent | 函数调用专家 | 多步编排 | 专为多步 Tool Use 链优化 |
| NemoClaw | 企业安全 Agent | NVIDIA 硬件 | 推理本地 + 隐私边界 + 生成云端 |
关键洞察:VPS 上的常驻 Agent 不需要人类在场就能运行生成任务。VPS 是 Agent 的计算,Higsfield 云端是生成的计算——两者互补,不竞争。
MCP Server:探索式对话集成¶
基本信息¶
- 地址:
mcp.higgsfield.ai/mcp - 认证:OAuth(无需 API Key)
- 发布日期:2026 年 4 月 30 日
工作原理¶
Agent 连接 → MCP Server 返回工具清单(Manifest)
│
▼
Agent 读取清单,知道可以做什么:
├── 图片生成(最高 4K)
├── 视频生成(最长 15 秒,任意比例)
├── Soul ID 角色训练
├── 30+ 模型统一访问
└── Marketing Studio 预设(结构化多步管道)
Marketing Studio 的特殊价值¶
Agent 调用 Marketing Studio 预设时,不是简单加滤镜:
Agent 传入:产品 URL / 参考图
│
▼
Server 自动执行:
① 读取产品信息 → 构建创意 Brief
② 选择合适模型 → 构图决策
③ 执行生成 → 返回可直接投放的素材
Agent 不需要知道:哪个模型适合哪个场景、什么参数产出什么效果
异步设计¶
视频渲染 3-5 分钟,MCP 不阻塞 Agent:
Agent 提交任务 → 返回 Job Handle
│
▼
Agent 轮询状态(不阻塞)
│
├── In Progress → 继续轮询
└── Completed → 获取 Media URL → 下一步
Jobs 持久化:即使 Agent 会话结束,生成继续在后台运行。新会话可通过 Handle 检索结果。
生成历史层¶
每次生成的素材都存在账户历史中,Agent 可以: - 浏览过往生成记录 - 通过 ID 引用任意历史素材 - 以历史素材为起点创建新内容 - 跨会话保持创意记忆
CLI:生产级批处理管道¶
基本信息¶
- 发布日期:2026 年 5 月 4 日(MCP 后 4 天)
- 安装:单条 curl 或 npm install
- 认证:OAuth 浏览器流程(~5 秒)
为什么需要单独的 CLI¶
核心问题:MCP 的 Token 成本结构不适合批处理。
MCP 模式(每次连接加载完整工具清单):
Turn 1: 完整 Manifest + 生成调用 ── 消耗 token
Turn 2: 完整 Manifest + 状态查询 ── 消耗 token
Turn 3: 完整 Manifest + 状态查询 ── 消耗 token
...
Turn N: 完整 Manifest + 结果获取 ── 消耗 token
❌ 完整 API 清单在每一轮都占用上下文
CLI 模式(子进程调用):
Turn 1: shell 命令 → 生成 ── 只需命令本身
Turn 2: shell 命令 → 查询状态 ── 只需命令本身
Turn 3: shell 命令 → 获取结果 ── 只需命令本身
✅ 不携带完整 API 表面,Token 效率极高
关键特性¶
| 特性 | 说明 |
|---|---|
--wait 标志 |
阻塞直到生成完成,直接返回 Media URL |
| 并行提交 | 可同时提交多个任务,并发轮询 |
| JSON 输出 | --json 标志输出机器可读格式 |
| 独立命令 | 提交任务 / 查询状态 / 等待完成,三者分离 |
支持的模型¶
Nano Banana Pro、Flux 2、Soul V2、Veo 3.1、Kling 3.0、Seedance 2.0、Marketing Studio、Virality Predictor — 全部通过终端命令访问,每个模型有独立参数。
MCP vs CLI 选择指南¶
什么时候用 MCP?
✅ 探索式对话
✅ 交互式创意工作
✅ 自然语言描述需求
✅ 一次性或少量的生成任务
❌ 批量循环(50+ 次生成)
什么时候用 CLI?
✅ 生产管道、批处理循环
✅ 从表格/ cron job 驱动的自动化
✅ 重复运行相同生成操作
✅ Token 成本敏感的大规模工作流
❌ 需要自然语言发现能力
一句话:
MCP = 创意对话
CLI = 创意工厂
Skills 系统:编码正确决策¶
核心问题¶
没有 Skills 的 Agent 会「猜」参数——模型选择、分辨率、提示词结构。单次可能没问题,但批量运行时,不一致性会累积。
四个 Skills¶
| Skill | 用途 | 触发场景 |
|---|---|---|
| Higsfield Generate | 通用生成入口 | 任何视觉内容需求(默认选择) |
| Higsfield Soul ID | 角色训练管道 | 需要跨资产一致的角色 |
| Higsfield Product Photoshoot | 产品摄影 | 品牌级产品图片(10 种模式) |
| Higsfield Marketplace Guards | 电商格式 | 商品卡片、次图、增强内容 |
Skills 链条¶
① Soul ID(一次性)→ 训练角色,获取 Soul ID
│
▼
② Generate(反复使用)→ 传入 Soul ID → 产出一致角色的营销素材
③ Product Photoshoot(独立管道)→ 产品摄影(无需角色训练)
④ Marketplace Guards(独立管道)→ 电商平台格式(无需角色训练)
Skills 的价值¶
没有 Skills:
Agent 每次根据提示词猜测参数
→ 批量输出看起来像 5 个不同的创意决策
有 Skills:
Agent 读取 Skills → 遵循编码好的决策
→ 批量输出来自同一个连贯的生产管道
Skills 不增加能力,而是编码正确的行为
Soul ID:解决角色一致性问题¶
问题本质¶
AI 生成的最大弱点不是单帧质量,而是跨多张生成保持同一角色。下颌线偏移、眼型变化、肤色漂移——提示词工程无法可靠解决,因为问题在扩散模型的采样层面。
Soul ID 的方案¶
传统方式(提示词层面):
每次生成独立从潜空间采样 → 角色不一致 ❌
Soul ID(模型层面):
① 上传 10-50 张参考照片(最佳 ~20 张)
② 训练数字分身(~5 分钟,后台运行)
③ 返回 Soul ID(持久标识符)
④ 后续所有生成传入 Soul ID → 硬约束 ✅
Soul ID 特性¶
| 特性 | 说明 |
|---|---|
| 训练成本 | 一次性固定积分,之后无限引用 |
| 持久性 | 账户内永久保存,跨项目、跨会话、跨 Agent |
| 约束级别 | 硬约束(非提示词建议) |
| 适用场景 | 换装、换场景、换灯光、换角度 → 脸始终一致 |
对 Agent 的意义¶
没有 Soul ID:
Agent 无法无人值守产出有人类角色的营销活动
→ 每张图是不同的脸
有 Soul ID:
Agent 训练一次 → 批量 50 张图 → 同一张脸在 50 个场景中
→ Agent 不需要检查角色漂移和重新生成
Virality Predictor:自动化质量门控¶
问题¶
Agent 能批量生成 100 个素材,但谁来决定哪个够好发布?没有这个能力,Agent 只是「把人类从流程中移动到了不同位置」,而非真正移除人类。
四维评分¶
| 指标 | 衡量内容 |
|---|---|
| Hook Strength | 开头几秒是否有效抓住注意力 |
| Attention Curve | 观众注意力在时长中的变化(升/降点) |
| Hold Rate | 模型观众实际观看了多少比例 |
| Viral Potential | 综合判断是否值得传播 |
工作流¶
Agent 生成视频
│
▼
提交 Virality Predictor(brain_activity job)
│
▼
返回四维分数 + 视觉热力图 + 分析报告
│
├── 分数 ≥ 阈值 → 进入分发队列
└── 分数 < 阈值 → 调整参数重新生成
(不同模型 / 不同 Hook / 不同开头帧)
关键:这是模型行为预测(不是审美判断),Agent 可以编程化处理数值信号。这是 Higsfield 独有的能力,其他平台尚未提供同等形态。
Supercomputer:端到端创意 Agent¶
基本信息¶
- 发布日期:2026 年 5 月 14 日
- 不是物理机器 — 是云端原生自学习 AI Agent
- 核心引擎:增强版 Hermes Agent(Nous Research)
为什么选 Hermes¶
Hermes 专为函数调用(Function Calling) 和 Agent 编排 微调:
通用对话模型 → 多步 Tool Use 时精度下降 ❌
Hermes Agent → 40+ 内置工具的多步编排保持精确 ✅
三层记忆架构¶
| 层级 | 内容 | 持久性 |
|---|---|---|
| Working Memory | 当前会话上下文 | 会话级 |
| Session Memory | 项目历史、所有资产、修订记录 | 项目级 |
| Long-term Brand Memory | 品牌指南、视觉偏好、语调、活动历史 | 永久(自学习) |
自学习的含义:每次完成任务都更新对品牌创意标准的理解,不是一次设置就完,而是跨会话持续改进。
LLM 可切换¶
支持 Claude Opus 4.7、GPT-5 变体、Gemini 3.1 Pro,对话中途切换不丢失上下文。
40+ 内置工具¶
脚本编写、角色设计、场景生成、视频制作、音频混音、质量检查、资产管理、社交渠道分发 — 覆盖从 Brief 到发布的全流程。
成本透明¶
Supercomputer 先估算成本,等待用户批准后才执行——不是先生成再扣费。
实际案例:Hell Grind¶
- 23 分钟科幻短片
- 传统制作:50 人团队,约 6 个月
- Supercomputer:小团队,96 小时(4 天)
连接器¶
Slack、Notion、Figma、Google Drive、Gmail、Telegram 等 30+ 外部服务 — 从生成到分发全自动化。
架构全景¶
┌──────────────────────────────────────────────────┐
│ 你的 Agent │
│ Claude Code / OpenClaw / Hermes / NemoClaw │
└──────────┬───────────────────┬───────────────────┘
│ │
MCP Server CLI Binary
(探索式对话) (生产级批处理)
│ │
┌─────┴─────┐ ┌────┴────┐
│ │ │ │
Soul ID Marketing Skills Virality
角色一致 Studio 决策编码 Predictor
质量门控
│ │
┌─────┴───────────────────┴─────┐
│ Higsfield 生成引擎 │
│ 30+ 模型 · 4K 图片 · 15s 视频 │
└───────────────────────────────┘
│
▼
┌──────────────────────────────────────┐
│ Supercomputer(Higsfield 自建) │
│ Hermes 引擎 · 三层记忆 · 40+ 工具 │
│ 从 Brief 到发布的端到端自动化 │
└──────────────────────────────────────┘
MCP + CLI = 你把 Higsfield 接入你的 Agent Supercomputer = Higsfield 自己建 Agent 接入全部能力
参考资料¶
- Higgsfield MCP 官方页面
- Higgsfield MCP vs CLI Token 成本分析
- Higgsfield Supercomputer 架构解析
- Higgsfield Skills 仓库