Skip to content

Higsfield Agent 基础设施全解

Higsfield 不是通用的图片生成器,而是为 Agent 生态打造的创意执行层。通过 MCP、CLI、Skills、Soul ID、Virality Predictor 和 Supercomputer,填补了 AI Agent 从规划到执行的最后一公里。

目录


Higsfield 平台定位

不是什么

  • ❌ 不是通用图片生成器(不做最便宜的 Stable Diffusion)
  • ❌ 不是快速原型工具
  • ❌ 不是物理超级计算机

是什么

一个专注电影级品质输出的创意平台,核心产品:

产品 定位 特点
Soul 旗舰模型 时尚级高写实视觉内容
Cinema Studio AI 电影制作 镜头运动、镜头选择、灯光、角色一致性
Marketing Studio 品牌广告管道 输入产品 URL → 输出可直接投放的广告素材
第三方模型 统一入口 Seedance 2.0、Sora 2、Veo 3.1、Kling 3.0、Flux 2 等 30+ 模型
Higsfield 统一入口
┌─────────────────────────────────────────┐
│  Soul    Seedance 2.0   Sora 2          │
│  Veo 3.1  Kling 3.0    Flux 2           │
│  GPT Image 2  Minimax  Hailuo ...       │
│         30+ 模型,同一账户、同一积分      │
└─────────────────────────────────────────┘
         │
    Agent 通过同一 URL 访问全部

为什么专为 Agent 而非人类

历史瓶颈

过去的工作流:
  Agent 规划 → Agent 写文案 → Agent 组织 Brief
                                    │
                              ▼ 人类手动操作 ▼
                              登录平台 → 输入提示词 → 等渲染
                              → 下载文件 → 交回 Agent

  Agent 做了所有思考,人类做了所有搬运

Higsfield 的选择

Higsfield 明确点名四个 Agent:Claude Code、OpenClaw、Hermes Agent、NemoClaw

Agent 类型 部署方式 与 Higsfield 的互补关系
Claude Code 终端编码 Agent 本地 Agent 推理在本地,生成在云端
OpenClaw 个人 AI 操作系统 VPS(常驻) 无人值守,7×24 自动化
Hermes Agent 函数调用专家 多步编排 专为多步 Tool Use 链优化
NemoClaw 企业安全 Agent NVIDIA 硬件 推理本地 + 隐私边界 + 生成云端

关键洞察:VPS 上的常驻 Agent 不需要人类在场就能运行生成任务。VPS 是 Agent 的计算,Higsfield 云端是生成的计算——两者互补,不竞争。


MCP Server:探索式对话集成

基本信息

  • 地址mcp.higgsfield.ai/mcp
  • 认证:OAuth(无需 API Key)
  • 发布日期:2026 年 4 月 30 日

工作原理

Agent 连接 → MCP Server 返回工具清单(Manifest)
                 │
                 ▼
    Agent 读取清单,知道可以做什么:
    ├── 图片生成(最高 4K)
    ├── 视频生成(最长 15 秒,任意比例)
    ├── Soul ID 角色训练
    ├── 30+ 模型统一访问
    └── Marketing Studio 预设(结构化多步管道)

Marketing Studio 的特殊价值

Agent 调用 Marketing Studio 预设时,不是简单加滤镜:

Agent 传入:产品 URL / 参考图
                │
                ▼
Server 自动执行:
  ① 读取产品信息 → 构建创意 Brief
  ② 选择合适模型 → 构图决策
  ③ 执行生成 → 返回可直接投放的素材

Agent 不需要知道:哪个模型适合哪个场景、什么参数产出什么效果

异步设计

视频渲染 3-5 分钟,MCP 不阻塞 Agent:

Agent 提交任务 → 返回 Job Handle
      │
      ▼
Agent 轮询状态(不阻塞)
      │
      ├── In Progress → 继续轮询
      └── Completed → 获取 Media URL → 下一步

Jobs 持久化:即使 Agent 会话结束,生成继续在后台运行。新会话可通过 Handle 检索结果。

生成历史层

每次生成的素材都存在账户历史中,Agent 可以: - 浏览过往生成记录 - 通过 ID 引用任意历史素材 - 以历史素材为起点创建新内容 - 跨会话保持创意记忆


CLI:生产级批处理管道

基本信息

  • 发布日期:2026 年 5 月 4 日(MCP 后 4 天)
  • 安装:单条 curl 或 npm install
  • 认证:OAuth 浏览器流程(~5 秒)

为什么需要单独的 CLI

核心问题:MCP 的 Token 成本结构不适合批处理。

MCP 模式(每次连接加载完整工具清单):
  Turn 1: 完整 Manifest + 生成调用     ── 消耗 token
  Turn 2: 完整 Manifest + 状态查询     ── 消耗 token
  Turn 3: 完整 Manifest + 状态查询     ── 消耗 token
  ...
  Turn N: 完整 Manifest + 结果获取     ── 消耗 token
  ❌ 完整 API 清单在每一轮都占用上下文

CLI 模式(子进程调用):
  Turn 1: shell 命令 → 生成           ── 只需命令本身
  Turn 2: shell 命令 → 查询状态        ── 只需命令本身
  Turn 3: shell 命令 → 获取结果        ── 只需命令本身
  ✅ 不携带完整 API 表面,Token 效率极高

关键特性

特性 说明
--wait 标志 阻塞直到生成完成,直接返回 Media URL
并行提交 可同时提交多个任务,并发轮询
JSON 输出 --json 标志输出机器可读格式
独立命令 提交任务 / 查询状态 / 等待完成,三者分离

支持的模型

Nano Banana Pro、Flux 2、Soul V2、Veo 3.1、Kling 3.0、Seedance 2.0、Marketing Studio、Virality Predictor — 全部通过终端命令访问,每个模型有独立参数。


MCP vs CLI 选择指南

什么时候用 MCP?
  ✅ 探索式对话
  ✅ 交互式创意工作
  ✅ 自然语言描述需求
  ✅ 一次性或少量的生成任务
  ❌ 批量循环(50+ 次生成)

什么时候用 CLI?
  ✅ 生产管道、批处理循环
  ✅ 从表格/ cron job 驱动的自动化
  ✅ 重复运行相同生成操作
  ✅ Token 成本敏感的大规模工作流
  ❌ 需要自然语言发现能力

一句话:
  MCP = 创意对话
  CLI = 创意工厂

Skills 系统:编码正确决策

核心问题

没有 Skills 的 Agent 会「猜」参数——模型选择、分辨率、提示词结构。单次可能没问题,但批量运行时,不一致性会累积。

四个 Skills

Skill 用途 触发场景
Higsfield Generate 通用生成入口 任何视觉内容需求(默认选择)
Higsfield Soul ID 角色训练管道 需要跨资产一致的角色
Higsfield Product Photoshoot 产品摄影 品牌级产品图片(10 种模式)
Higsfield Marketplace Guards 电商格式 商品卡片、次图、增强内容

Skills 链条

① Soul ID(一次性)→ 训练角色,获取 Soul ID
        │
        ▼
② Generate(反复使用)→ 传入 Soul ID → 产出一致角色的营销素材

③ Product Photoshoot(独立管道)→ 产品摄影(无需角色训练)
④ Marketplace Guards(独立管道)→ 电商平台格式(无需角色训练)

Skills 的价值

没有 Skills:
  Agent 每次根据提示词猜测参数
  → 批量输出看起来像 5 个不同的创意决策

有 Skills:
  Agent 读取 Skills → 遵循编码好的决策
  → 批量输出来自同一个连贯的生产管道

Skills 不增加能力,而是编码正确的行为

Soul ID:解决角色一致性问题

问题本质

AI 生成的最大弱点不是单帧质量,而是跨多张生成保持同一角色。下颌线偏移、眼型变化、肤色漂移——提示词工程无法可靠解决,因为问题在扩散模型的采样层面。

Soul ID 的方案

传统方式(提示词层面):
  每次生成独立从潜空间采样 → 角色不一致 ❌

Soul ID(模型层面):
  ① 上传 10-50 张参考照片(最佳 ~20 张)
  ② 训练数字分身(~5 分钟,后台运行)
  ③ 返回 Soul ID(持久标识符)
  ④ 后续所有生成传入 Soul ID → 硬约束 ✅

Soul ID 特性

特性 说明
训练成本 一次性固定积分,之后无限引用
持久性 账户内永久保存,跨项目、跨会话、跨 Agent
约束级别 硬约束(非提示词建议)
适用场景 换装、换场景、换灯光、换角度 → 脸始终一致

对 Agent 的意义

没有 Soul ID:
  Agent 无法无人值守产出有人类角色的营销活动
  → 每张图是不同的脸

有 Soul ID:
  Agent 训练一次 → 批量 50 张图 → 同一张脸在 50 个场景中
  → Agent 不需要检查角色漂移和重新生成

Virality Predictor:自动化质量门控

问题

Agent 能批量生成 100 个素材,但谁来决定哪个够好发布?没有这个能力,Agent 只是「把人类从流程中移动到了不同位置」,而非真正移除人类。

四维评分

指标 衡量内容
Hook Strength 开头几秒是否有效抓住注意力
Attention Curve 观众注意力在时长中的变化(升/降点)
Hold Rate 模型观众实际观看了多少比例
Viral Potential 综合判断是否值得传播

工作流

Agent 生成视频
      │
      ▼
提交 Virality Predictor(brain_activity job)
      │
      ▼
返回四维分数 + 视觉热力图 + 分析报告
      │
      ├── 分数 ≥ 阈值 → 进入分发队列
      └── 分数 < 阈值 → 调整参数重新生成
           (不同模型 / 不同 Hook / 不同开头帧)

关键:这是模型行为预测(不是审美判断),Agent 可以编程化处理数值信号。这是 Higsfield 独有的能力,其他平台尚未提供同等形态。


Supercomputer:端到端创意 Agent

基本信息

  • 发布日期:2026 年 5 月 14 日
  • 不是物理机器 — 是云端原生自学习 AI Agent
  • 核心引擎:增强版 Hermes Agent(Nous Research)

为什么选 Hermes

Hermes 专为函数调用(Function Calling)Agent 编排 微调:

通用对话模型 → 多步 Tool Use 时精度下降 ❌
Hermes Agent → 40+ 内置工具的多步编排保持精确 ✅

三层记忆架构

层级 内容 持久性
Working Memory 当前会话上下文 会话级
Session Memory 项目历史、所有资产、修订记录 项目级
Long-term Brand Memory 品牌指南、视觉偏好、语调、活动历史 永久(自学习)

自学习的含义:每次完成任务都更新对品牌创意标准的理解,不是一次设置就完,而是跨会话持续改进。

LLM 可切换

支持 Claude Opus 4.7、GPT-5 变体、Gemini 3.1 Pro,对话中途切换不丢失上下文

40+ 内置工具

脚本编写、角色设计、场景生成、视频制作、音频混音、质量检查、资产管理、社交渠道分发 — 覆盖从 Brief 到发布的全流程。

成本透明

Supercomputer 先估算成本,等待用户批准后才执行——不是先生成再扣费。

实际案例:Hell Grind

  • 23 分钟科幻短片
  • 传统制作:50 人团队,约 6 个月
  • Supercomputer:小团队,96 小时(4 天)

连接器

Slack、Notion、Figma、Google Drive、Gmail、Telegram 等 30+ 外部服务 — 从生成到分发全自动化。


架构全景

┌──────────────────────────────────────────────────┐
│                   你的 Agent                       │
│  Claude Code / OpenClaw / Hermes / NemoClaw       │
└──────────┬───────────────────┬───────────────────┘
           │                   │
     MCP Server            CLI Binary
   (探索式对话)          (生产级批处理)
           │                   │
     ┌─────┴─────┐       ┌────┴────┐
     │           │       │         │
  Soul ID   Marketing   Skills   Virality
  角色一致   Studio     决策编码   Predictor
                        质量门控
           │                   │
     ┌─────┴───────────────────┴─────┐
     │     Higsfield 生成引擎          │
     │  30+ 模型 · 4K 图片 · 15s 视频  │
     └───────────────────────────────┘
                    │
                    ▼
┌──────────────────────────────────────┐
│        Supercomputer(Higsfield 自建)  │
│  Hermes 引擎 · 三层记忆 · 40+ 工具      │
│  从 Brief 到发布的端到端自动化            │
└──────────────────────────────────────┘

MCP + CLI = 你把 Higsfield 接入你的 Agent Supercomputer = Higsfield 自己建 Agent 接入全部能力


参考资料

相关笔记