本地 AI 硬件搭建 - 个人主权之路¶
一位 AI 从业者分享 4 年来从依赖云端 AI 到搭建本地 AI 基础设施的真实历程。核心观点:不要陷入 100% 云端 vs 100% 本地的二元对立,务实采用混合策略。
目录¶
为什么追求本地 AI 主权¶
核心问题¶
云端 AI 服务的本质问题:
- 数据主权 — 你的对话、代码、文档全部被用于训练
- 缺乏透明度 — 不知道模型如何使用你的数据
- 供应商锁定 — 价格随时可能上涨,服务随时可能改变
- 隐私风险 — 代码和商业数据暴露在第三方
不是非此即彼¶
100% 云端依赖 ◄──────────────────────► 100% 本地独立
❌ 数据泄露 ❌ 算力不足
❌ 无控制权 ❌ 模型质量有限
✅ 前沿模型 ✅ 完全隐私
最佳策略:混合部署
用云端做高层设计 + 本地做执行
关键洞察:当前是过渡期。利用便宜的前沿模型构建你需要的东西,同时建设本地基础设施。未来 AI 格局会快速变化,保持灵活性比押注任何一端更重要。
硬件演进路径¶
从笔记本到专用 AI 服务器¶
作者的真实硬件迭代路线:
M1 MacBook Air 16GB ──── 主力工作机 + 数据同步
│
▼
Mac Mini M4 32GB ──── 原主力机,数据核心
│
▼ (OpenClaw 发布后)
└─► VM 隔离测试 ──── 安全沙箱测试 AI Agent
│
▼
Mac Mini M4 16GB (基础款) ──── AI 专用机($150 折扣价)
│
▼
NVIDIA DGX Spark 128GB ──── 本地推理主力
安全隔离原则¶
OpenClaw(AI 编码 Agent)发布时,作者的做法值得借鉴:
- ❌ 不直接安装到工作机 — Agent 可能执行不可信操作
- ✅ 先在 VM 中测试 — 共享资源但隔离数据
- ✅ 确认安全后迁移到专用机 — 独立硬件、独立环境
NVIDIA DGX Spark 深度分析¶
规格¶
| 参数 | 值 |
|---|---|
| 芯片 | NVIDIA GB10 Grace Blackwell Superchip |
| 内存 | 128 GB LPDDR5x 统一内存 |
| 内存带宽 | 273 GB/s |
| AI 算力 | 最高 1 PFLOP (FP4) |
| 存储 | 4TB NVMe M.2(自加密) |
| 连接 | USB、Ethernet、Spark 互联(最多 4 台级联) |
| 发售价格 | $3,999(2025.10)→ 涨至 $4,699(2026) |
| 尺寸 | 150mm,Mac Mini 大小 |
优势与局限¶
DGX Spark
┌──────────┐
优势 │ ✅ 极其稳定 │ 局限 │ ❌ 内存带宽低 │
│ ✅ 软件生态成熟│ │ ❌ 推理速度慢 │
│ ✅ 可级联扩展 │ │ ❌ 价格上涨中 │
│ ✅ 128GB 大内存│ │ │
└──────────┘
核心矛盾:128GB 内存够大,但 273 GB/s 的带宽限制了 token 生成速度。模型越大、上下文越长,速度下降越明显。
与竞品对比¶
| 特性 | DGX Spark ($4,699) | Mac Studio M2 Ultra 192GB | Mac Mini M4 Pro | RTX 5090 (~$5,000) |
|---|---|---|---|---|
| 内存 | 128GB LPDDR5x | 192GB 统一内存 | 24-64GB 统一内存 | 32GB GDDR7 |
| 内存带宽 | 273 GB/s | 800 GB/s | 150-273 GB/s | 1,792 GB/s |
| 稳定性 | ✅ 极佳(NVIDIA 生态) | ⚠️ 一般 | ⚠️ 一般 | ✅ 佳 |
| 可扩展 | ✅ 最多 4 台级联 | ❌ 不可扩展 | ❌ 不可扩展 | ✅ 最多 4 卡 SLI |
| 功耗 | 低 | 中 | 低 | ❌ 极高 |
| 软件兼容 | ✅ CUDA 原生 | ⚠️ MLX 生态 | ⚠️ MLX 生态 | ✅ CUDA 原生 |
| 总成本(含主机) | ~$4,700 | ~$4,000-6,000 | ~$600-1,600 | ~$8,000-10,000 |
作者观点:128GB 是当前甜点容量。512GB 看似能加载更大模型,但速度会慢到不可用。平衡容量和速度比一味追求大内存更重要。
本机模型选型:MoE 的速度与智慧¶
Qwen 3.6 系列:MoE 架构的胜利¶
Mixture-of-Experts(MoE,混合专家模型) — 35B 总参数中每次推理只激活 3B,兼顾智慧与速度。
| 模型 | 总参数 | 活跃参数 | DGX Spark 上的速度 | 适用场景 |
|---|---|---|---|---|
| Qwen 3.6-35B-A3B | 35B | ~3B | ~70 tok/s | ✅ 主力推荐 |
| Qwen 3.6-27B | 27B | 27B (全激活) | ~10 tok/s | 需要更高智能时 |
| Gemma 4-27B-4B | 27B | ~4B | ~50 tok/s | 替代选择 |
性能实测¶
Token/秒 (DGX Spark 128GB)
━━━━━━━━━━━━━━━━━━━━━━━━━━━
Qwen 3.6-35B-A3B ██████████████████████████████ ~70 tok/s ✅
Gemma 4-27B-4B ██████████████████████ ~50 tok/s
Qwen 3.6-27B ████ ~10 tok/s ❌
━━━━━━━━━━━━━━━━━━━━━━━━━━━
注:上下文窗口增大时,速度线性下降
Qwen 3.6-35B-A3B 亮点¶
根据搜索增强,该模型的实际 benchmark 表现:
| Benchmark | Qwen 3.6-35B-A3B | Gemma 4-31B | Qwen 3.5-27B |
|---|---|---|---|
| SWE-bench Verified | 73.4% | 52.0% | 75.0% |
| Terminal-Bench 2.0 | 51.5% | 42.9% | 41.6% |
| MCPMark | 37.0 | — | 27.0 |
| GPQA (STEM) | 86.0% | — | 85.5% |
3B 活跃参数达到了接近甚至超越全激活 27B 模型的性能,这就是 MoE 架构的价值。
并发实例能力¶
128GB 内存允许同时运行多个实例:
| 上下文窗口 | 可并行实例数 | 典型用途 |
|---|---|---|
| 200K tokens | 2-3 个 | Hermes 聊天 + OpenCode 编码 |
| 小上下文 | ~20 个 | 批量处理任务 |
DGX Spark 128GB
┌─────────────────────────────────────────┐
│ 实例 1: Hermes (200K ctx) ── 聊天 │
│ 实例 2: OpenCode (200K ctx) ── 编码 │
│ 实例 3: Piper TTS ── 语音 │
│ 实例 4: Whisper ── 转录 │
└─────────────────────────────────────────┘
混合部署策略¶
务实的三层架构¶
┌─────────────────────────────────────────────┐
│ 云端 AI (GPT-5.5 / Claude) │
│ 用途:架构设计、代码审查、复杂问题解决 │
│ 频率:偶尔调用,按需使用 │
├─────────────────────────────────────────────┤
│ 本地 AI (DGX Spark) │
│ 用途:日常编码、对话、Agent 执行 │
│ 频率:主力使用,24/7 运行 │
├─────────────────────────────────────────────┤
│ 边缘设备 (Mac Mini / 手机) │
│ 用途:Whisper 转录、轻量任务、Hermes 入口 │
│ 频率:常驻服务 │
└─────────────────────────────────────────────┘
最佳实践¶
- ✅ 模块化架构设计 — 用云端 AI 设计软件架构,确保每个模块足够小,本地模型能独立理解和修改
- ✅ 云端做高层,本地做执行 — 架构规划用大模型,编码实现用本地模型
- ✅ Bug 修复路由 — 简单 bug 本地修,复杂 bug 交给云端大模型
- ❌ 不要让云端 AI 持有你的核心代码库
- ❌ 不要忽视安全隔离(AI Agent 必须在沙箱中运行)
代码模块化策略¶
传统方式(需要大上下文):
┌──────────────────────────────────┐
│ 大型单体代码库 │
│ 需要 200K+ context 才能理解 │
│ → 只有云端大模型能处理 │
└──────────────────────────────────┘
推荐方式(模块化拆分):
┌────────┐ ┌────────┐ ┌────────┐
│ 模块 A │ │ 模块 B │ │ 模块 C │
│ 20K ctx│ │ 20K ctx│ │ 20K ctx│
└────────┘ └────────┘ └────────┘
每个模块自包含
→ 本地模型即可处理
硬件选型决策树¶
你的预算是多少?
│
├─ ~$400 以下
│ └─ Mac Mini M4 基础款 (16GB)
│ 适合:轻量聊天、Whisper 转录
│ 限制:无法运行高质量编码模型
│
├─ ~$600-1,600
│ └─ Mac Mini M4 Pro (24-64GB)
│ 适合:中等模型、入门本地 AI
│ 推荐:Ollama + Qwen 3.6-35B-A3B (量化)
│
├─ ~$4,700
│ └─ NVIDIA DGX Spark (128GB)
│ 适合:本地推理主力、多实例并行
│ 推荐:Qwen 3.6-35B-A3B (70 tok/s)
│
├─ ~$8,000-10,000
│ └─ RTX 5090 + 主机
│ 适合:追求推理速度的开发者
│ 推荐:27B 模型 + 大上下文
│
└─ ~$10,000+
└─ 多卡方案 (2-4x RTX 5090)
适合:专业 AI 开发
限制:功耗极高、成本巨大
作者的最终建议¶
不要等"完美的硬件"。 现在的模型在持续优化(更小、更快、更聪明),今天买的硬件在未来会变得更有价值。先从你能负担的设备开始,构建你的知识和系统。
参考资料¶
- DGX Spark vs Mac Studio & Halo: Benchmarks & Alternatives
- DGX Spark and Mac Mini for Local PyTorch Development - Sebastian Raschka
- Qwen 3.6-35B-A3B 官方博客
- Run Qwen3.6-35B-A3B on 6GB VRAM
- The $10K Sovereign AI Cluster (Apple Silicon)
相关笔记¶
- [[MoE 架构原理]]
- [[本地 LLM 推理优化]]