Skip to content

本地 AI 硬件搭建 - 个人主权之路

一位 AI 从业者分享 4 年来从依赖云端 AI 到搭建本地 AI 基础设施的真实历程。核心观点:不要陷入 100% 云端 vs 100% 本地的二元对立,务实采用混合策略。

目录


为什么追求本地 AI 主权

核心问题

云端 AI 服务的本质问题:

  • 数据主权 — 你的对话、代码、文档全部被用于训练
  • 缺乏透明度 — 不知道模型如何使用你的数据
  • 供应商锁定 — 价格随时可能上涨,服务随时可能改变
  • 隐私风险 — 代码和商业数据暴露在第三方

不是非此即彼

100% 云端依赖 ◄──────────────────────► 100% 本地独立
     ❌ 数据泄露                              ❌ 算力不足
     ❌ 无控制权                              ❌ 模型质量有限
     ✅ 前沿模型                              ✅ 完全隐私

              最佳策略:混合部署
         用云端做高层设计 + 本地做执行

关键洞察:当前是过渡期。利用便宜的前沿模型构建你需要的东西,同时建设本地基础设施。未来 AI 格局会快速变化,保持灵活性比押注任何一端更重要。


硬件演进路径

从笔记本到专用 AI 服务器

作者的真实硬件迭代路线:

M1 MacBook Air 16GB          ──── 主力工作机 + 数据同步
       │
       ▼
Mac Mini M4 32GB              ──── 原主力机,数据核心
       │
       ▼ (OpenClaw 发布后)
  └─► VM 隔离测试             ──── 安全沙箱测试 AI Agent
       │
       ▼
Mac Mini M4 16GB (基础款)     ──── AI 专用机($150 折扣价)
       │
       ▼
NVIDIA DGX Spark 128GB        ──── 本地推理主力

安全隔离原则

OpenClaw(AI 编码 Agent)发布时,作者的做法值得借鉴:

  • 不直接安装到工作机 — Agent 可能执行不可信操作
  • 先在 VM 中测试 — 共享资源但隔离数据
  • 确认安全后迁移到专用机 — 独立硬件、独立环境

NVIDIA DGX Spark 深度分析

规格

参数
芯片 NVIDIA GB10 Grace Blackwell Superchip
内存 128 GB LPDDR5x 统一内存
内存带宽 273 GB/s
AI 算力 最高 1 PFLOP (FP4)
存储 4TB NVMe M.2(自加密)
连接 USB、Ethernet、Spark 互联(最多 4 台级联)
发售价格 $3,999(2025.10)→ 涨至 $4,699(2026)
尺寸 150mm,Mac Mini 大小

优势与局限

           DGX Spark
          ┌──────────┐
   优势   │ ✅ 极其稳定    │  局限  │ ❌ 内存带宽低  │
          │ ✅ 软件生态成熟│        │ ❌ 推理速度慢  │
          │ ✅ 可级联扩展  │        │ ❌ 价格上涨中  │
          │ ✅ 128GB 大内存│        │              │
          └──────────┘

核心矛盾:128GB 内存够大,但 273 GB/s 的带宽限制了 token 生成速度。模型越大、上下文越长,速度下降越明显。

与竞品对比

特性 DGX Spark ($4,699) Mac Studio M2 Ultra 192GB Mac Mini M4 Pro RTX 5090 (~$5,000)
内存 128GB LPDDR5x 192GB 统一内存 24-64GB 统一内存 32GB GDDR7
内存带宽 273 GB/s 800 GB/s 150-273 GB/s 1,792 GB/s
稳定性 ✅ 极佳(NVIDIA 生态) ⚠️ 一般 ⚠️ 一般 ✅ 佳
可扩展 ✅ 最多 4 台级联 ❌ 不可扩展 ❌ 不可扩展 ✅ 最多 4 卡 SLI
功耗 ❌ 极高
软件兼容 ✅ CUDA 原生 ⚠️ MLX 生态 ⚠️ MLX 生态 ✅ CUDA 原生
总成本(含主机) ~$4,700 ~$4,000-6,000 ~$600-1,600 ~$8,000-10,000

作者观点:128GB 是当前甜点容量。512GB 看似能加载更大模型,但速度会慢到不可用。平衡容量和速度比一味追求大内存更重要。


本机模型选型:MoE 的速度与智慧

Qwen 3.6 系列:MoE 架构的胜利

Mixture-of-Experts(MoE,混合专家模型) — 35B 总参数中每次推理只激活 3B,兼顾智慧与速度。

模型 总参数 活跃参数 DGX Spark 上的速度 适用场景
Qwen 3.6-35B-A3B 35B ~3B ~70 tok/s ✅ 主力推荐
Qwen 3.6-27B 27B 27B (全激活) ~10 tok/s 需要更高智能时
Gemma 4-27B-4B 27B ~4B ~50 tok/s 替代选择

性能实测

Token/秒 (DGX Spark 128GB)
━━━━━━━━━━━━━━━━━━━━━━━━━━━
Qwen 3.6-35B-A3B    ██████████████████████████████  ~70 tok/s ✅
Gemma 4-27B-4B      ██████████████████████          ~50 tok/s
Qwen 3.6-27B        ████                           ~10 tok/s ❌
━━━━━━━━━━━━━━━━━━━━━━━━━━━
注:上下文窗口增大时,速度线性下降

Qwen 3.6-35B-A3B 亮点

根据搜索增强,该模型的实际 benchmark 表现:

Benchmark Qwen 3.6-35B-A3B Gemma 4-31B Qwen 3.5-27B
SWE-bench Verified 73.4% 52.0% 75.0%
Terminal-Bench 2.0 51.5% 42.9% 41.6%
MCPMark 37.0 27.0
GPQA (STEM) 86.0% 85.5%

3B 活跃参数达到了接近甚至超越全激活 27B 模型的性能,这就是 MoE 架构的价值。

并发实例能力

128GB 内存允许同时运行多个实例:

上下文窗口 可并行实例数 典型用途
200K tokens 2-3 个 Hermes 聊天 + OpenCode 编码
小上下文 ~20 个 批量处理任务
DGX Spark 128GB
┌─────────────────────────────────────────┐
│  实例 1: Hermes (200K ctx)    ── 聊天   │
│  实例 2: OpenCode (200K ctx)  ── 编码   │
│  实例 3: Piper TTS           ── 语音    │
│  实例 4: Whisper              ── 转录    │
└─────────────────────────────────────────┘

混合部署策略

务实的三层架构

┌─────────────────────────────────────────────┐
│              云端 AI (GPT-5.5 / Claude)      │
│  用途:架构设计、代码审查、复杂问题解决        │
│  频率:偶尔调用,按需使用                     │
├─────────────────────────────────────────────┤
│            本地 AI (DGX Spark)               │
│  用途:日常编码、对话、Agent 执行             │
│  频率:主力使用,24/7 运行                    │
├─────────────────────────────────────────────┤
│            边缘设备 (Mac Mini / 手机)          │
│  用途:Whisper 转录、轻量任务、Hermes 入口     │
│  频率:常驻服务                               │
└─────────────────────────────────────────────┘

最佳实践

  • 模块化架构设计 — 用云端 AI 设计软件架构,确保每个模块足够小,本地模型能独立理解和修改
  • 云端做高层,本地做执行 — 架构规划用大模型,编码实现用本地模型
  • Bug 修复路由 — 简单 bug 本地修,复杂 bug 交给云端大模型
  • ❌ 不要让云端 AI 持有你的核心代码库
  • ❌ 不要忽视安全隔离(AI Agent 必须在沙箱中运行)

代码模块化策略

传统方式(需要大上下文):
┌──────────────────────────────────┐
│         大型单体代码库            │
│  需要 200K+ context 才能理解     │
│  → 只有云端大模型能处理          │
└──────────────────────────────────┘

推荐方式(模块化拆分):
┌────────┐ ┌────────┐ ┌────────┐
│ 模块 A │ │ 模块 B │ │ 模块 C │
│ 20K ctx│ │ 20K ctx│ │ 20K ctx│
└────────┘ └────────┘ └────────┘
  每个模块自包含
  → 本地模型即可处理

硬件选型决策树

你的预算是多少?
│
├─ ~$400 以下
│  └─ Mac Mini M4 基础款 (16GB)
│     适合:轻量聊天、Whisper 转录
│     限制:无法运行高质量编码模型
│
├─ ~$600-1,600
│  └─ Mac Mini M4 Pro (24-64GB)
│     适合:中等模型、入门本地 AI
│     推荐:Ollama + Qwen 3.6-35B-A3B (量化)
│
├─ ~$4,700
│  └─ NVIDIA DGX Spark (128GB)
│     适合:本地推理主力、多实例并行
│     推荐:Qwen 3.6-35B-A3B (70 tok/s)
│
├─ ~$8,000-10,000
│  └─ RTX 5090 + 主机
│     适合:追求推理速度的开发者
│     推荐:27B 模型 + 大上下文
│
└─ ~$10,000+
   └─ 多卡方案 (2-4x RTX 5090)
      适合:专业 AI 开发
      限制:功耗极高、成本巨大

作者的最终建议

不要等"完美的硬件"。 现在的模型在持续优化(更小、更快、更聪明),今天买的硬件在未来会变得更有价值。先从你能负担的设备开始,构建你的知识和系统。


参考资料

相关笔记

  • [[MoE 架构原理]]
  • [[本地 LLM 推理优化]]