MiniMax M2.5 本地 AI 模型完整指南¶

目录¶

核心规格
基准测试成绩
本地部署指南
量化版本选择
评测测试结果
与其他模型对比
OpenClaw/VS Code 集成
最佳实践
常见问题
参考资料

核心规格¶

模型参数¶

指标	数值	说明
总参数量	229B (2290亿)	MoE 混合专家架构
激活参数量	10B (100亿)	仅 4.3% 参数被激活
上下文窗口	200K tokens	超长上下文支持
推理速度	50-100 TPS	Lightning 版达 100 TPS

核心技术¶

┌─────────────────────────────────────────────────────┐
│              MiniMax M2.5 架构                       │
├─────────────────────────────────────────────────────┤
│  ┌─────────────┐    ┌─────────────┐                │
│  │ Forge RL    │    │ CISPO 算法   │                │
│  │ Agent 框架  │    │ 训练稳定性   │                │
│  └─────────────┘    └─────────────┘                │
│                                                     │
│  ┌─────────────────────────────────────────────┐   │
│  │  MoE 混合专家架构                             │   │
│  │  229B 总参数 → 10B 激活参数                   │   │
│  └─────────────────────────────────────────────┘   │
│                                                     │
│  ┌─────────────┐    ┌─────────────┐                │
│  │ 过程奖励机制 │    │ 树状合并策略 │                │
│  │ 信用分配    │    │ 40x 训练加速 │                │
│  └─────────────┘    └─────────────┘                │
└─────────────────────────────────────────────────────┘

价格对比¶

模型	输入价格	输出价格	相对成本
MiniMax M2.5	$0.30/M	$1.20/M	1x
M2.5 Lightning	$0.30/M	$2.40/M	1.5x
Claude Opus 4.6	$15/M	$75/M	50x
GPT-4 Turbo	$10/M	$30/M	20x

基准测试成绩¶

编程能力¶

评测项目	MiniMax M2.5	Claude Opus 4.6	GLM-5
SWE-Bench Verified	80.2%	80.8%	77.8%
Multi-SWE-Bench	51.3% 🥇	50.3%	-
OpenCode	76.1%	75.9%	-
Droid	79.7%	78.9%	-
BFCL Multi-Turn	76.8%	63.3%	-

Agent 能力¶

能力维度	得分
BrowseComp (搜索)	76.3%
RISE (搜索效率)	节省 20% 搜索轮次
GDPval-MM (办公)	59.0%

性能提升¶

M2.5 相比 M2.1 的提升：
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
BFCL 工具调用:    34% → 76%  (+124%)
Office 办公:      24.6% → 59% (+140%)
推理速度:                      +37%
Token 效率:                    -5.4%
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

本地部署指南¶

方法一：Ollama（推荐新手）¶

# 安装 Ollama
curl -fsSL https://ollama.com/install.sh | sh

# 拉取并运行
ollama run minimax-m2.5

方法二：vLLM（生产环境）¶

# 安装 vLLM
pip install vllm==0.4.0

# 启动服务（OpenAI 兼容）
vllm serve MiniMaxAI/MiniMax-M2.5 \
    --quantization awq \
    --tensor-parallel-size 1 \
    --gpu-memory-utilization 0.9 \
    --port 8000

方法三：HuggingFace 直接下载¶

pip install -U huggingface_hub
huggingface-cli download MiniMaxAI/MiniMax-M2.5 \
    --local-dir ./MiniMax-M2.5

方法四：llama.cpp（CPU/混合推理）¶

# 转换为 GGUF 格式
python convert-hf-to-gguf.py ./MiniMax-M2.5 \
    --outfile MiniMax-M2.5-f16.gguf

# 量化
./quantize MiniMax-M2.5-f16.gguf MiniMax-M2.5-Q4_K_M.gguf Q4_K_M

# 运行
./main -m MiniMax-M2.5-Q4_K_M.gguf -p "Your prompt" -n 512

量化版本选择¶

硬件需求对照表¶

量化版本	显存需求	系统内存	精度损失	适用场景
INT4 (AWQ)	8-12GB	32GB+	<2%	日常使用
Q4_K_M	~12GB	32GB+	较低	性价比之选
Q5_K_M	~16GB	64GB+	很低	追求精度
Q6_K	~20GB	128GB+	极低	专业用途
Q8_0 / Q9	24GB+	256GB+	几乎无	极致性能

GPU 推荐配置¶

GPU 型号	推荐量化	预期性能
RTX 3060 (16GB)	INT4	可运行
RTX 3090/4090 (24GB)	Q6/Q8	流畅运行
2x RTX 3090	FP16	完整精度
Mac Studio (192GB+)	Q6/Q9	35-40 TPS

实测数据（视频评测）¶

版本	内存占用	推理速度
Q9	239 GB	33-35 TPS
Q6	173 GB	35-40 TPS

评测测试结果¶

3D 地球生成测试¶

模型	效果评价	Token 产出
GLM5	华丽，正确纹理	~7000
Kimi K2.5	最华丽，有深度贴图	~6000
DeepSeek V3	有云层和大气	~5000
MiniMax M2.5 (Q9)	华丽，画廊级别	~4000
MiniMax M2.5 (Q6)	光照略有问题	~2000

逻辑推理测试¶

测试项	禁用思考	启用思考
外科医生问题	❌ 答错（母亲）	⚠️ 需自动触发思考
电车难题（变体）	⚠️ 含糊	⚠️ 无明确答案
洗车问题	❌ 答错（走路）	✅ 正确（开车）

编码能力测试¶

测试项	结果
Regex 模式匹配	✅ 启用思考后通过
文本宽度调试	⚠️ 未识别换行符
Flappy Bird 3D	⚠️ 忘记放管道间隙

工具调用测试¶

测试项	结果	备注
网页内容获取	✅ 成功	自定义字符数
维基百科查询	✅ 正确答案	有点浪费（读取整页）
Apple Notes	✅ 成功	-

与其他模型对比¶

核心对比表¶

维度	MiniMax M2.5	Claude Opus 4.6	GLM-5	Kimi K2.5
总参数	230B	~400B+	744B	-
激活参数	10B	~400B+	40B	~50B
推理速度	100 TPS	~33 TPS	~66 TPS	-
SWE-Bench	80.2%	80.8%	77.8%	-
成本	$1.5/M	$90/M	$4.2/M	$2.3/M
性价比	🥇 极高	低	中	中

优势场景对比¶

场景	推荐模型	原因
成本敏感项目	MiniMax M2.5	成本仅 1/10-1/20
大规模 Agent	MiniMax M2.5	100 TPS，成本可控
前端 UI 开发	MiniMax M2.5	视觉效果最佳
数学/科学计算	GLM-5	推理能力最强
多模态任务	Kimi K2.5	原生支持图像视频
法律/金融高精度	Claude Opus 4.6	综合准确性最高
复杂系统工程	Claude Opus 4.6	不计成本的最强选择

OpenClaw/VS Code 集成¶

配置 OpenClaw 使用 MiniMax¶

// OpenClaw RAW 配置
{
  "model": {
    "id": "minimax-m2.5",
    "provider": "openai-compatible",
    "api_base": "http://localhost:8000/v1"
  }
}

启用 Prompt Caching¶

// settings.json
{
  "prompt_caching": {
    "enabled": true,
    "fixed_date": true  // 缓存有效期一年
  }
}

配置 VS Code Kilo Code¶

# 环境变量配置
export OPENAI_BASE_URL=http://localhost:8000/v1
export OPENAI_API_KEY=sk-fake-key

注意事项¶

⚠️ 重要：使用 Infroner 时确保禁用工具调用，避免与 OpenClaw/Kilo Code 的工具调用冲突。

最佳实践¶

思考模式使用建议¶

┌─────────────────────────────────────────────────────┐
│          思考模式使用策略                            │
├─────────────────────────────────────────────────────┤
│                                                     │
│  ✅ 推荐禁用思考模式，让模型自动触发                 │
│                                                     │
│  原因：                                             │
│  • 禁用时模型会自行判断是否需要思考                 │
│  • 自动触发思考后往往能得出正确答案                 │
│  • 强制启用可能导致错误推理                         │
│                                                     │
│  适用任务：                                         │
│  • 复杂编码问题 → 启用思考                          │
│  • 简单问答 → 禁用思考                              │
│  • 逻辑推理 → 启用思考                              │
│                                                     │
└─────────────────────────────────────────────────────┘

Q6 vs Q9 选择建议¶

情况	推荐版本
有 256GB+ 内存	Q9（更好质量）
只有 192GB 内存	Q6（能运行）
追求速度	Q6
追求质量	Q9

Token 效率优化¶

启用 Prompt Caching 避免重复处理
使用 Fixed Date 延长缓存有效期
预估：40000 token ≈ 10 GiB 内存

常见问题¶

Q1: 为什么我的推理速度很慢？¶

可能原因： 1. 量化版本过高（如 Q9） 2. 内存不足导致交换 3. 后台进程占用资源

解决方案：使用 Q6 或 INT4 量化

Q2: 逻辑推理测试失败怎么办？¶

解决方案： - 禁用思考模式，让模型自动判断 - 或在提示词中明确要求"请仔细思考"

Q3: Q6 版本光照效果不好？¶

原因：量化导致的艺术细节损失

解决方案： 1. 使用 Q9 版本 2. 或在提示词中增加光照描述 3. 多次请求让模型修复

Q4: 与 OpenClaw 集成时工具调用混乱？¶

解决方案： - 禁用 Infroner 的工具调用功能 - 只使用 OpenClaw 的工具定义

Q5: 如何判断应该用 M2.5 还是其他模型？¶

选择决策树：

需要极致准确？ ───── 是 ──→ Claude Opus 4.6
      │
      否
      ↓
预算有限？ ───── 是 ──→ MiniMax M2.5
      │
      否
      ↓
需要多模态？ ───── 是 ──→ Kimi K2.5
      │
      否
      ↓
需要数学推理？ ───── 是 ──→ GLM-5
      │
      否
      ↓
默认选择 ──────────→ MiniMax M2.5

参考资料¶

官方资源¶

官网: https://www.minimax.io/models/text
API 平台: https://platform.minimaxi.com
HuggingFace: https://huggingface.co/MiniMaxAI/MiniMax-M2.5

社区教程¶

视频来源¶

原始评测视频: https://www.youtube.com/watch?v=yWXK6zu_kGE

总结¶

✅ 优点¶

极致性价比：成本仅为 Claude 的 1/10-1/20
高效推理：100 TPS 速度
编程能力强：Multi-SWE-Bench 行业第一
低显存占用：10B 激活参数
原生 Agent 设计：Forge RL 框架

❌ 缺点¶

Token 消耗较高
复杂后端逻辑处理能力不足
逻辑推理偶有失败
非编程领域综合能力有差距
量化版本质量差异明显

🎯 适用场景¶

推荐使用	不推荐使用
成本敏感项目	高精度金融/法律
大规模 Agent 部署	复杂科学研究
前端 UI 开发	需要多模态任务
快速原型开发	极致准确性要求

本指南基于 2026-02-22 的信息整理，如有更新请参考官方文档。