Higsfield Agent 基础设施全解¶

Higsfield 不是通用的图片生成器，而是为 Agent 生态打造的创意执行层。通过 MCP、CLI、Skills、Soul ID、Virality Predictor 和 Supercomputer，填补了 AI Agent 从规划到执行的最后一公里。

目录¶

#Higsfield 平台定位
#为什么专为 Agent 而非人类
#MCP Server：探索式对话集成
#CLI：生产级批处理管道
#MCP vs CLI 选择指南
#Skills 系统：编码正确决策
#Soul ID：解决角色一致性问题
#Virality Predictor：自动化质量门控
#Supercomputer：端到端创意 Agent

Higsfield 平台定位¶

不是什么¶

❌ 不是通用图片生成器（不做最便宜的 Stable Diffusion）
❌ 不是快速原型工具
❌ 不是物理超级计算机

是什么¶

一个专注电影级品质输出的创意平台，核心产品：

产品	定位	特点
Soul	旗舰模型	时尚级高写实视觉内容
Cinema Studio	AI 电影制作	镜头运动、镜头选择、灯光、角色一致性
Marketing Studio	品牌广告管道	输入产品 URL → 输出可直接投放的广告素材
第三方模型	统一入口	Seedance 2.0、Sora 2、Veo 3.1、Kling 3.0、Flux 2 等 30+ 模型

Higsfield 统一入口
┌─────────────────────────────────────────┐
│  Soul    Seedance 2.0   Sora 2          │
│  Veo 3.1  Kling 3.0    Flux 2           │
│  GPT Image 2  Minimax  Hailuo ...       │
│         30+ 模型，同一账户、同一积分      │
└─────────────────────────────────────────┘
         │
    Agent 通过同一 URL 访问全部

为什么专为 Agent 而非人类¶

历史瓶颈¶

过去的工作流：
  Agent 规划 → Agent 写文案 → Agent 组织 Brief
                                    │
                              ▼ 人类手动操作 ▼
                              登录平台 → 输入提示词 → 等渲染
                              → 下载文件 → 交回 Agent

  Agent 做了所有思考，人类做了所有搬运

Higsfield 的选择¶

Higsfield 明确点名四个 Agent：Claude Code、OpenClaw、Hermes Agent、NemoClaw。

Agent	类型	部署方式	与 Higsfield 的互补关系
Claude Code	终端编码 Agent	本地	Agent 推理在本地，生成在云端
OpenClaw	个人 AI 操作系统	VPS（常驻）	无人值守，7×24 自动化
Hermes Agent	函数调用专家	多步编排	专为多步 Tool Use 链优化
NemoClaw	企业安全 Agent	NVIDIA 硬件	推理本地 + 隐私边界 + 生成云端

关键洞察：VPS 上的常驻 Agent 不需要人类在场就能运行生成任务。VPS 是 Agent 的计算，Higsfield 云端是生成的计算——两者互补，不竞争。

MCP Server：探索式对话集成¶

基本信息¶

地址：mcp.higgsfield.ai/mcp
认证：OAuth（无需 API Key）
发布日期：2026 年 4 月 30 日

工作原理¶

Agent 连接 → MCP Server 返回工具清单（Manifest）
                 │
                 ▼
    Agent 读取清单，知道可以做什么：
    ├── 图片生成（最高 4K）
    ├── 视频生成（最长 15 秒，任意比例）
    ├── Soul ID 角色训练
    ├── 30+ 模型统一访问
    └── Marketing Studio 预设（结构化多步管道）

Marketing Studio 的特殊价值¶

Agent 调用 Marketing Studio 预设时，不是简单加滤镜：

Agent 传入：产品 URL / 参考图
                │
                ▼
Server 自动执行：
  ① 读取产品信息 → 构建创意 Brief
  ② 选择合适模型 → 构图决策
  ③ 执行生成 → 返回可直接投放的素材

Agent 不需要知道：哪个模型适合哪个场景、什么参数产出什么效果

异步设计¶

视频渲染 3-5 分钟，MCP 不阻塞 Agent：

Agent 提交任务 → 返回 Job Handle
      │
      ▼
Agent 轮询状态（不阻塞）
      │
      ├── In Progress → 继续轮询
      └── Completed → 获取 Media URL → 下一步

Jobs 持久化：即使 Agent 会话结束，生成继续在后台运行。新会话可通过 Handle 检索结果。

生成历史层¶

每次生成的素材都存在账户历史中，Agent 可以： - 浏览过往生成记录 - 通过 ID 引用任意历史素材 - 以历史素材为起点创建新内容 - 跨会话保持创意记忆

CLI：生产级批处理管道¶

基本信息¶

发布日期：2026 年 5 月 4 日（MCP 后 4 天）
安装：单条 curl 或 npm install
认证：OAuth 浏览器流程（~5 秒）

为什么需要单独的 CLI¶

核心问题：MCP 的 Token 成本结构不适合批处理。

MCP 模式（每次连接加载完整工具清单）：
  Turn 1: 完整 Manifest + 生成调用     ── 消耗 token
  Turn 2: 完整 Manifest + 状态查询     ── 消耗 token
  Turn 3: 完整 Manifest + 状态查询     ── 消耗 token
  ...
  Turn N: 完整 Manifest + 结果获取     ── 消耗 token
  ❌ 完整 API 清单在每一轮都占用上下文

CLI 模式（子进程调用）：
  Turn 1: shell 命令 → 生成           ── 只需命令本身
  Turn 2: shell 命令 → 查询状态        ── 只需命令本身
  Turn 3: shell 命令 → 获取结果        ── 只需命令本身
  ✅ 不携带完整 API 表面，Token 效率极高

关键特性¶

特性	说明
`--wait` 标志	阻塞直到生成完成，直接返回 Media URL
并行提交	可同时提交多个任务，并发轮询
JSON 输出	`--json` 标志输出机器可读格式
独立命令	提交任务 / 查询状态 / 等待完成，三者分离

支持的模型¶

Nano Banana Pro、Flux 2、Soul V2、Veo 3.1、Kling 3.0、Seedance 2.0、Marketing Studio、Virality Predictor — 全部通过终端命令访问，每个模型有独立参数。

MCP vs CLI 选择指南¶

什么时候用 MCP？
  ✅ 探索式对话
  ✅ 交互式创意工作
  ✅ 自然语言描述需求
  ✅ 一次性或少量的生成任务
  ❌ 批量循环（50+ 次生成）

什么时候用 CLI？
  ✅ 生产管道、批处理循环
  ✅ 从表格/ cron job 驱动的自动化
  ✅ 重复运行相同生成操作
  ✅ Token 成本敏感的大规模工作流
  ❌ 需要自然语言发现能力

一句话：
  MCP = 创意对话
  CLI = 创意工厂

Skills 系统：编码正确决策¶

核心问题¶

没有 Skills 的 Agent 会「猜」参数——模型选择、分辨率、提示词结构。单次可能没问题，但批量运行时，不一致性会累积。

四个 Skills¶

Skill	用途	触发场景
Higsfield Generate	通用生成入口	任何视觉内容需求（默认选择）
Higsfield Soul ID	角色训练管道	需要跨资产一致的角色
Higsfield Product Photoshoot	产品摄影	品牌级产品图片（10 种模式）
Higsfield Marketplace Guards	电商格式	商品卡片、次图、增强内容

Skills 链条¶

① Soul ID（一次性）→ 训练角色，获取 Soul ID
        │
        ▼
② Generate（反复使用）→ 传入 Soul ID → 产出一致角色的营销素材

③ Product Photoshoot（独立管道）→ 产品摄影（无需角色训练）
④ Marketplace Guards（独立管道）→ 电商平台格式（无需角色训练）

Skills 的价值¶

没有 Skills：
  Agent 每次根据提示词猜测参数
  → 批量输出看起来像 5 个不同的创意决策

有 Skills：
  Agent 读取 Skills → 遵循编码好的决策
  → 批量输出来自同一个连贯的生产管道

Skills 不增加能力，而是编码正确的行为

Soul ID：解决角色一致性问题¶

问题本质¶

AI 生成的最大弱点不是单帧质量，而是跨多张生成保持同一角色。下颌线偏移、眼型变化、肤色漂移——提示词工程无法可靠解决，因为问题在扩散模型的采样层面。

Soul ID 的方案¶

传统方式（提示词层面）：
  每次生成独立从潜空间采样 → 角色不一致 ❌

Soul ID（模型层面）：
  ① 上传 10-50 张参考照片（最佳 ~20 张）
  ② 训练数字分身（~5 分钟，后台运行）
  ③ 返回 Soul ID（持久标识符）
  ④ 后续所有生成传入 Soul ID → 硬约束 ✅

Soul ID 特性¶

特性	说明
训练成本	一次性固定积分，之后无限引用
持久性	账户内永久保存，跨项目、跨会话、跨 Agent
约束级别	硬约束（非提示词建议）
适用场景	换装、换场景、换灯光、换角度 → 脸始终一致

对 Agent 的意义¶

没有 Soul ID：
  Agent 无法无人值守产出有人类角色的营销活动
  → 每张图是不同的脸

有 Soul ID：
  Agent 训练一次 → 批量 50 张图 → 同一张脸在 50 个场景中
  → Agent 不需要检查角色漂移和重新生成

Virality Predictor：自动化质量门控¶

问题¶

Agent 能批量生成 100 个素材，但谁来决定哪个够好发布？没有这个能力，Agent 只是「把人类从流程中移动到了不同位置」，而非真正移除人类。

四维评分¶

指标	衡量内容
Hook Strength	开头几秒是否有效抓住注意力
Attention Curve	观众注意力在时长中的变化（升/降点）
Hold Rate	模型观众实际观看了多少比例
Viral Potential	综合判断是否值得传播

工作流¶

Agent 生成视频
      │
      ▼
提交 Virality Predictor（brain_activity job）
      │
      ▼
返回四维分数 + 视觉热力图 + 分析报告
      │
      ├── 分数 ≥ 阈值 → 进入分发队列
      └── 分数 < 阈值 → 调整参数重新生成
           （不同模型 / 不同 Hook / 不同开头帧）

关键：这是模型行为预测（不是审美判断），Agent 可以编程化处理数值信号。这是 Higsfield 独有的能力，其他平台尚未提供同等形态。

Supercomputer：端到端创意 Agent¶

基本信息¶

发布日期：2026 年 5 月 14 日
不是物理机器 — 是云端原生自学习 AI Agent
核心引擎：增强版 Hermes Agent（Nous Research）

为什么选 Hermes¶

Hermes 专为函数调用（Function Calling） 和 Agent 编排 微调：

通用对话模型 → 多步 Tool Use 时精度下降 ❌
Hermes Agent → 40+ 内置工具的多步编排保持精确 ✅

三层记忆架构¶

层级	内容	持久性
Working Memory	当前会话上下文	会话级
Session Memory	项目历史、所有资产、修订记录	项目级
Long-term Brand Memory	品牌指南、视觉偏好、语调、活动历史	永久（自学习）

自学习的含义：每次完成任务都更新对品牌创意标准的理解，不是一次设置就完，而是跨会话持续改进。

LLM 可切换¶

支持 Claude Opus 4.7、GPT-5 变体、Gemini 3.1 Pro，对话中途切换不丢失上下文。

40+ 内置工具¶

脚本编写、角色设计、场景生成、视频制作、音频混音、质量检查、资产管理、社交渠道分发 — 覆盖从 Brief 到发布的全流程。

成本透明¶

Supercomputer 先估算成本，等待用户批准后才执行——不是先生成再扣费。

实际案例：Hell Grind¶

23 分钟科幻短片
传统制作：50 人团队，约 6 个月
Supercomputer：小团队，96 小时（4 天）

连接器¶

Slack、Notion、Figma、Google Drive、Gmail、Telegram 等 30+ 外部服务 — 从生成到分发全自动化。

架构全景¶

┌──────────────────────────────────────────────────┐
│                   你的 Agent                       │
│  Claude Code / OpenClaw / Hermes / NemoClaw       │
└──────────┬───────────────────┬───────────────────┘
           │                   │
     MCP Server            CLI Binary
   (探索式对话)          (生产级批处理)
           │                   │
     ┌─────┴─────┐       ┌────┴────┐
     │           │       │         │
  Soul ID   Marketing   Skills   Virality
  角色一致   Studio     决策编码   Predictor
                        质量门控
           │                   │
     ┌─────┴───────────────────┴─────┐
     │     Higsfield 生成引擎          │
     │  30+ 模型 · 4K 图片 · 15s 视频  │
     └───────────────────────────────┘
                    │
                    ▼
┌──────────────────────────────────────┐
│        Supercomputer（Higsfield 自建）  │
│  Hermes 引擎 · 三层记忆 · 40+ 工具      │
│  从 Brief 到发布的端到端自动化            │
└──────────────────────────────────────┘

MCP + CLI = 你把 Higsfield 接入你的 Agent Supercomputer = Higsfield 自己建 Agent 接入全部能力

Higsfield Agent 基础设施全解¶

目录¶

Higsfield 平台定位¶

不是什么¶

是什么¶

为什么专为 Agent 而非人类¶

历史瓶颈¶

Higsfield 的选择¶

MCP Server：探索式对话集成¶

基本信息¶

工作原理¶

Marketing Studio 的特殊价值¶

异步设计¶

生成历史层¶

CLI：生产级批处理管道¶

基本信息¶

为什么需要单独的 CLI¶

关键特性¶

支持的模型¶

MCP vs CLI 选择指南¶

Skills 系统：编码正确决策¶

核心问题¶

四个 Skills¶

Skills 链条¶

Skills 的价值¶

Soul ID：解决角色一致性问题¶

问题本质¶

Soul ID 的方案¶

Soul ID 特性¶

对 Agent 的意义¶

Virality Predictor：自动化质量门控¶

问题¶

四维评分¶

工作流¶

Supercomputer：端到端创意 Agent¶

基本信息¶

为什么选 Hermes¶

三层记忆架构¶

LLM 可切换¶

40+ 内置工具¶

成本透明¶

实际案例：Hell Grind¶

连接器¶

架构全景¶

参考资料¶

相关笔记¶