Skip to content

DeepSeek V4 的杠杆机会与 Token Efficiency 实践

DeepSeek V4 不只是模型升级,而是打开了一个 Token 成本接近免费的杠杆窗口。关键不在追最强模型,而在用小模型 + 合理编排实现极致的 Token Efficiency。


目录


背景:行业趋势 Token Efficiency

Anthropic 顾问策略(2025.4.9)

Anthropic 发布博客提出 顾问策略(Consultant Strategy):不再让最强模型干所有活,而是反转——

传统模式:最强模型(Opus)→ 干所有任务
顾问模式:便宜模型(Haiku)→ 执行任务
          最强模型(Opus)→ 仅在卡壳时介入指点(约 400-700 token)

效果:Haiku + Opus 顾问在 BrowseComp 上分数从 19.7 → 41.2(翻倍),成本比 Sonnet 单独跑低 85%。

两个行业信号

  1. 日常任务已趋同:各模型在日常任务上差异不大,顶级模型主要用于兜底
  2. 大小模型组合发布:厂商都同时发布大模型(1T+)和小模型(~300B),如千问、蚂蚁百灵、DeepSeek

核心共识:实现 AGI 的关键不是最强模型,而是 小模型在大模型指导 + Harness 配合下胜任多数任务,实现成本极致优化。


DeepSeek V4 核心优势

模型规格

型号 总参数 激活参数 上下文
V4-Pro 1.6T MoE 49B 1M token
V4-Flash 284B MoE 13B 1M token

三大核心突破

1. 上下文压缩(KV Cache 仅为 V3.2 的 10%)

  • CSA(Compressed Sparse Attention)混合注意力架构
  • 每 m=4 个原始 token 压缩为 1 个压缩 KV 条目
  • 推理 FLOPs 仅为 V3.2 的 27%

2. 100 万 token 上下文

当前常见上下文:200K-260K
DeepSeek V4:1,000K(5x)

实际意义: - 复杂任务不再频繁触发上下文压缩和遗忘 - 每个分解后的小任务可在完整上下文内完成,无性能损失 - 280B Flash 版压缩后的 1M 上下文仅占 ~10GB 显存

3. 极致低价

项目 价格
V4 Flash 缓存命中 0.02 元 / 百万 token
V4 Flash 输出 4 元 / 百万 token

Agent 任务中约 90% token 消耗在缓存(代码、文档、历史对话),缓存接近免费意味着整体成本约打一折。


Token Efficiency 工程实践

杠杆的两级定义

第一级(人人可试):
  V4 Pro API → 做规划和顾问
  V4 Flash API → 做执行
  特点:极低成本,快速验证

第二级(终极杠杆):
  V4 Pro API → 规划
  本地部署 Flash → 执行
  特点:电费换生产力

为什么不是换个模型就够了?

视频核心观点:仅有 Claude Code / OpenCode 这类框架远远不够。真正发挥杠杆需要:

┌─────────────────────────────────────────────┐
│              Token Efficiency 三要素          │
├─────────────────────────────────────────────┤
│                                             │
│  1. 模型能力边界的极致理解                    │
│     └─ 什么任务用什么模型                    │
│                                             │
│  2. Harness(编排框架)                       │
│     └─ 任务拆分、流程控制、通信机制            │
│     └─ 无人值守、高并发、端到端交付            │
│                                             │
│  3. 评估体系                                 │
│     └─ 量化不同模型的能力边界                  │
│     └─ 数据驱动持续优化                       │
│                                             │
└─────────────────────────────────────────────┘

作者的 DAG 编排架构

作者参考 Anthropic "解耦手和脑" 博客,实现了四层架构:

第一层:DAG 任务流

[需求分析] → [编码] → [Review] → [测试] → [提交PR]
    ↑           ↑        ↑
    └───────────┴────────┘
         每个节点 = 独立 Agent
         运行在独立沙盒中
         任务拆分到单上下文窗口内可完成
  • 节点间有预定义通信方式:编码↔Review 为一对一,规划→码农为一对多异步

第二层:CLI 编排构建系统 - Agent 的 prompt 片段、资源均可复用组合 - 跑通的编排自动成为编排 Agent 的知识库 - 处理任务越多,编排经验越丰富

第三层:抽卡式任务解决 - 同一任务可跑多个副本,择优录取 - 生成数据用于优化编排(给特定 Agent 节点做专属 skill)

第四层:多模型组合评估 - 同一编排用不同模型组合运行 - 测量:工具调用成功率、失败分布、Token 成本、运行时间 - 输出量化的模型能力边界指标

Claude Code 配置技巧

# 将模型配置为 DeepSeek V4 组合
# Sonnet/Haiku → V4 Flash(执行)
# Opus → V4 Pro(规划)

export ANTHROPIC_MODEL_SONNET="deepseek/v4-flash"
export ANTHROPIC_MODEL_HAIKU="deepseek/v4-flash"
export ANTHROPIC_MODEL_OPUS="deepseek/v4-pro"

# 启动时加 --model optsplan
# 仅在规划阶段使用 V4 Pro,其余都用 V4 Flash
claude --model optsplan

硬件平台选择建议

三种角色 × 推荐方案

角色 预算 推荐 理由
普通程序员/AI 提效 ~3 万 Mac > 4090 48G > GB10 > AMD Mac 跑更大模型,API 满足日常
创业者/一人公司 - GB10 > 4090 > Mac 必须在 CUDA 平台验证 Token 效率
老板/生产部署 有经济模型 多卡 CUDA(如 Pro 6000) Token→钱的转化必须先跑通

关键原则: - API 买 Token 永远是第一选择 - 想吃 AI 行业的饭 → CUDA 设备远胜 Apple Silicon - 推理框架主攻 vLLMSGLang(哪个对新模型支持好就用哪个) - 必须用 Linux 平台

各平台对比

推理性能:  Pro 6000 >> GB10 ≈ 4090 48G > Mac Ultra > AMD
内存带宽:  Pro 6000 >> 4090 > Mac Ultra > GB10 > AMD
软件生态:  CUDA (vLLM/SGLang) >> MLX (Mac) > ROCm (AMD)
易用性:    Mac (MLX/Ollama) > 4090 > GB10 > 多卡

行动建议

  1. 开始用小模型:订阅 Claude Max 不等于天下无敌,先用 DeepSeek V4 Pro + Flash 组合压低成本,感受小模型的能力边界
  2. 建立评估体系:用大模型跑基线,再用小模型做对比评估,量化什么任务用什么模型最划算
  3. 原子化业务流程:把业务流程拆成独立节点,明确串行/并行关系,确保每个节点在最小上下文内完成(不超过 1M token),等 Harness 工具成熟后直接接入

核心结论:不需要追最强模型,而是充分理解 Token Efficiency,用好小模型,设计好编排,跑通一条把 Token 有效转换成生产力的路。


参考资料

相关笔记

  • [[DeepSeek R1]] - DeepSeek 推理模型
  • [[Qwen 3]] - 通义千问 3 代模型
  • [[AI Agent 编排框架对比]]