本地 AI 硬件搭建 - 个人主权之路¶

一位 AI 从业者分享 4 年来从依赖云端 AI 到搭建本地 AI 基础设施的真实历程。核心观点：不要陷入 100% 云端 vs 100% 本地的二元对立，务实采用混合策略。

目录¶

#为什么追求本地 AI 主权
#硬件演进路径
#NVIDIA DGX Spark 深度分析
#本机模型选型：MoE 的速度与智慧
#混合部署策略
#硬件选型决策树

为什么追求本地 AI 主权¶

核心问题¶

云端 AI 服务的本质问题：

数据主权 — 你的对话、代码、文档全部被用于训练
缺乏透明度 — 不知道模型如何使用你的数据
供应商锁定 — 价格随时可能上涨，服务随时可能改变
隐私风险 — 代码和商业数据暴露在第三方

不是非此即彼¶

100% 云端依赖 ◄──────────────────────► 100% 本地独立
     ❌ 数据泄露                              ❌ 算力不足
     ❌ 无控制权                              ❌ 模型质量有限
     ✅ 前沿模型                              ✅ 完全隐私

              最佳策略：混合部署
         用云端做高层设计 + 本地做执行

关键洞察：当前是过渡期。利用便宜的前沿模型构建你需要的东西，同时建设本地基础设施。未来 AI 格局会快速变化，保持灵活性比押注任何一端更重要。

硬件演进路径¶

从笔记本到专用 AI 服务器¶

作者的真实硬件迭代路线：

M1 MacBook Air 16GB          ──── 主力工作机 + 数据同步
       │
       ▼
Mac Mini M4 32GB              ──── 原主力机，数据核心
       │
       ▼ (OpenClaw 发布后)
  └─► VM 隔离测试             ──── 安全沙箱测试 AI Agent
       │
       ▼
Mac Mini M4 16GB (基础款)     ──── AI 专用机（$150 折扣价）
       │
       ▼
NVIDIA DGX Spark 128GB        ──── 本地推理主力

安全隔离原则¶

OpenClaw（AI 编码 Agent）发布时，作者的做法值得借鉴：

❌ 不直接安装到工作机 — Agent 可能执行不可信操作
✅ 先在 VM 中测试 — 共享资源但隔离数据
✅ 确认安全后迁移到专用机 — 独立硬件、独立环境

NVIDIA DGX Spark 深度分析¶

规格¶

参数	值
芯片	NVIDIA GB10 Grace Blackwell Superchip
内存	128 GB LPDDR5x 统一内存
内存带宽	273 GB/s
AI 算力	最高 1 PFLOP (FP4)
存储	4TB NVMe M.2（自加密）
连接	USB、Ethernet、Spark 互联（最多 4 台级联）
发售价格	$3,999（2025.10）→ 涨至 $4,699（2026）
尺寸	150mm，Mac Mini 大小

优势与局限¶

           DGX Spark
          ┌──────────┐
   优势   │ ✅ 极其稳定    │  局限  │ ❌ 内存带宽低  │
          │ ✅ 软件生态成熟│        │ ❌ 推理速度慢  │
          │ ✅ 可级联扩展  │        │ ❌ 价格上涨中  │
          │ ✅ 128GB 大内存│        │              │
          └──────────┘

核心矛盾：128GB 内存够大，但 273 GB/s 的带宽限制了 token 生成速度。模型越大、上下文越长，速度下降越明显。

与竞品对比¶

特性	DGX Spark ($4,699)	Mac Studio M2 Ultra 192GB	Mac Mini M4 Pro	RTX 5090 (~$5,000)
内存	128GB LPDDR5x	192GB 统一内存	24-64GB 统一内存	32GB GDDR7
内存带宽	273 GB/s	800 GB/s	150-273 GB/s	1,792 GB/s
稳定性	✅ 极佳（NVIDIA 生态）	⚠️ 一般	⚠️ 一般	✅ 佳
可扩展	✅ 最多 4 台级联	❌ 不可扩展	❌ 不可扩展	✅ 最多 4 卡 SLI
功耗	低	中	低	❌ 极高
软件兼容	✅ CUDA 原生	⚠️ MLX 生态	⚠️ MLX 生态	✅ CUDA 原生
总成本（含主机）	~$4,700	~$4,000-6,000	~$600-1,600	~$8,000-10,000

作者观点：128GB 是当前甜点容量。512GB 看似能加载更大模型，但速度会慢到不可用。平衡容量和速度比一味追求大内存更重要。

本机模型选型：MoE 的速度与智慧¶

Qwen 3.6 系列：MoE 架构的胜利¶

Mixture-of-Experts（MoE，混合专家模型） — 35B 总参数中每次推理只激活 3B，兼顾智慧与速度。

模型	总参数	活跃参数	DGX Spark 上的速度	适用场景
Qwen 3.6-35B-A3B	35B	~3B	~70 tok/s	✅ 主力推荐
Qwen 3.6-27B	27B	27B (全激活)	~10 tok/s	需要更高智能时
Gemma 4-27B-4B	27B	~4B	~50 tok/s	替代选择

性能实测¶

Token/秒 (DGX Spark 128GB)
━━━━━━━━━━━━━━━━━━━━━━━━━━━
Qwen 3.6-35B-A3B    ██████████████████████████████  ~70 tok/s ✅
Gemma 4-27B-4B      ██████████████████████          ~50 tok/s
Qwen 3.6-27B        ████                           ~10 tok/s ❌
━━━━━━━━━━━━━━━━━━━━━━━━━━━
注：上下文窗口增大时，速度线性下降

Qwen 3.6-35B-A3B 亮点¶

根据搜索增强，该模型的实际 benchmark 表现：

Benchmark	Qwen 3.6-35B-A3B	Gemma 4-31B	Qwen 3.5-27B
SWE-bench Verified	73.4%	52.0%	75.0%
Terminal-Bench 2.0	51.5%	42.9%	41.6%
MCPMark	37.0	—	27.0
GPQA (STEM)	86.0%	—	85.5%

3B 活跃参数达到了接近甚至超越全激活 27B 模型的性能，这就是 MoE 架构的价值。

并发实例能力¶

128GB 内存允许同时运行多个实例：

上下文窗口	可并行实例数	典型用途
200K tokens	2-3 个	Hermes 聊天 + OpenCode 编码
小上下文	~20 个	批量处理任务

DGX Spark 128GB
┌─────────────────────────────────────────┐
│  实例 1: Hermes (200K ctx)    ── 聊天   │
│  实例 2: OpenCode (200K ctx)  ── 编码   │
│  实例 3: Piper TTS           ── 语音    │
│  实例 4: Whisper              ── 转录    │
└─────────────────────────────────────────┘

混合部署策略¶

务实的三层架构¶

┌─────────────────────────────────────────────┐
│              云端 AI (GPT-5.5 / Claude)      │
│  用途：架构设计、代码审查、复杂问题解决        │
│  频率：偶尔调用，按需使用                     │
├─────────────────────────────────────────────┤
│            本地 AI (DGX Spark)               │
│  用途：日常编码、对话、Agent 执行             │
│  频率：主力使用，24/7 运行                    │
├─────────────────────────────────────────────┤
│            边缘设备 (Mac Mini / 手机)          │
│  用途：Whisper 转录、轻量任务、Hermes 入口     │
│  频率：常驻服务                               │
└─────────────────────────────────────────────┘

最佳实践¶

✅ 模块化架构设计 — 用云端 AI 设计软件架构，确保每个模块足够小，本地模型能独立理解和修改
✅ 云端做高层，本地做执行 — 架构规划用大模型，编码实现用本地模型
✅ Bug 修复路由 — 简单 bug 本地修，复杂 bug 交给云端大模型
❌ 不要让云端 AI 持有你的核心代码库
❌ 不要忽视安全隔离（AI Agent 必须在沙箱中运行）

代码模块化策略¶

传统方式（需要大上下文）：
┌──────────────────────────────────┐
│         大型单体代码库            │
│  需要 200K+ context 才能理解     │
│  → 只有云端大模型能处理          │
└──────────────────────────────────┘

推荐方式（模块化拆分）：
┌────────┐ ┌────────┐ ┌────────┐
│ 模块 A │ │ 模块 B │ │ 模块 C │
│ 20K ctx│ │ 20K ctx│ │ 20K ctx│
└────────┘ └────────┘ └────────┘
  每个模块自包含
  → 本地模型即可处理

硬件选型决策树¶

你的预算是多少？
│
├─ ~$400 以下
│  └─ Mac Mini M4 基础款 (16GB)
│     适合：轻量聊天、Whisper 转录
│     限制：无法运行高质量编码模型
│
├─ ~$600-1,600
│  └─ Mac Mini M4 Pro (24-64GB)
│     适合：中等模型、入门本地 AI
│     推荐：Ollama + Qwen 3.6-35B-A3B (量化)
│
├─ ~$4,700
│  └─ NVIDIA DGX Spark (128GB)
│     适合：本地推理主力、多实例并行
│     推荐：Qwen 3.6-35B-A3B (70 tok/s)
│
├─ ~$8,000-10,000
│  └─ RTX 5090 + 主机
│     适合：追求推理速度的开发者
│     推荐：27B 模型 + 大上下文
│
└─ ~$10,000+
   └─ 多卡方案 (2-4x RTX 5090)
      适合：专业 AI 开发
      限制：功耗极高、成本巨大

作者的最终建议¶

不要等"完美的硬件"。 现在的模型在持续优化（更小、更快、更聪明），今天买的硬件在未来会变得更有价值。先从你能负担的设备开始，构建你的知识和系统。