MiniMax M2.5 本地 AI 模型完整指南
目录
核心规格
模型参数
| 指标 |
数值 |
说明 |
| 总参数量 |
229B (2290亿) |
MoE 混合专家架构 |
| 激活参数量 |
10B (100亿) |
仅 4.3% 参数被激活 |
| 上下文窗口 |
200K tokens |
超长上下文支持 |
| 推理速度 |
50-100 TPS |
Lightning 版达 100 TPS |
核心技术
┌─────────────────────────────────────────────────────┐
│ MiniMax M2.5 架构 │
├─────────────────────────────────────────────────────┤
│ ┌─────────────┐ ┌─────────────┐ │
│ │ Forge RL │ │ CISPO 算法 │ │
│ │ Agent 框架 │ │ 训练稳定性 │ │
│ └─────────────┘ └─────────────┘ │
│ │
│ ┌─────────────────────────────────────────────┐ │
│ │ MoE 混合专家架构 │ │
│ │ 229B 总参数 → 10B 激活参数 │ │
│ └─────────────────────────────────────────────┘ │
│ │
│ ┌─────────────┐ ┌─────────────┐ │
│ │ 过程奖励机制 │ │ 树状合并策略 │ │
│ │ 信用分配 │ │ 40x 训练加速 │ │
│ └─────────────┘ └─────────────┘ │
└─────────────────────────────────────────────────────┘
价格对比
| 模型 |
输入价格 |
输出价格 |
相对成本 |
| MiniMax M2.5 |
$0.30/M |
$1.20/M |
1x |
| M2.5 Lightning |
$0.30/M |
$2.40/M |
1.5x |
| Claude Opus 4.6 |
$15/M |
$75/M |
50x |
| GPT-4 Turbo |
$10/M |
$30/M |
20x |
基准测试成绩
编程能力
| 评测项目 |
MiniMax M2.5 |
Claude Opus 4.6 |
GLM-5 |
| SWE-Bench Verified |
80.2% |
80.8% |
77.8% |
| Multi-SWE-Bench |
51.3% 🥇 |
50.3% |
- |
| OpenCode |
76.1% |
75.9% |
- |
| Droid |
79.7% |
78.9% |
- |
| BFCL Multi-Turn |
76.8% |
63.3% |
- |
Agent 能力
| 能力维度 |
得分 |
| BrowseComp (搜索) |
76.3% |
| RISE (搜索效率) |
节省 20% 搜索轮次 |
| GDPval-MM (办公) |
59.0% |
性能提升
M2.5 相比 M2.1 的提升:
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
BFCL 工具调用: 34% → 76% (+124%)
Office 办公: 24.6% → 59% (+140%)
推理速度: +37%
Token 效率: -5.4%
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
本地部署指南
方法一:Ollama(推荐新手)
# 安装 Ollama
curl -fsSL https://ollama.com/install.sh | sh
# 拉取并运行
ollama run minimax-m2.5
方法二:vLLM(生产环境)
# 安装 vLLM
pip install vllm==0.4.0
# 启动服务(OpenAI 兼容)
vllm serve MiniMaxAI/MiniMax-M2.5 \
--quantization awq \
--tensor-parallel-size 1 \
--gpu-memory-utilization 0.9 \
--port 8000
方法三:HuggingFace 直接下载
pip install -U huggingface_hub
huggingface-cli download MiniMaxAI/MiniMax-M2.5 \
--local-dir ./MiniMax-M2.5
方法四:llama.cpp(CPU/混合推理)
# 转换为 GGUF 格式
python convert-hf-to-gguf.py ./MiniMax-M2.5 \
--outfile MiniMax-M2.5-f16.gguf
# 量化
./quantize MiniMax-M2.5-f16.gguf MiniMax-M2.5-Q4_K_M.gguf Q4_K_M
# 运行
./main -m MiniMax-M2.5-Q4_K_M.gguf -p "Your prompt" -n 512
量化版本选择
硬件需求对照表
| 量化版本 |
显存需求 |
系统内存 |
精度损失 |
适用场景 |
| INT4 (AWQ) |
8-12GB |
32GB+ |
<2% |
日常使用 |
| Q4_K_M |
~12GB |
32GB+ |
较低 |
性价比之选 |
| Q5_K_M |
~16GB |
64GB+ |
很低 |
追求精度 |
| Q6_K |
~20GB |
128GB+ |
极低 |
专业用途 |
| Q8_0 / Q9 |
24GB+ |
256GB+ |
几乎无 |
极致性能 |
GPU 推荐配置
| GPU 型号 |
推荐量化 |
预期性能 |
| RTX 3060 (16GB) |
INT4 |
可运行 |
| RTX 3090/4090 (24GB) |
Q6/Q8 |
流畅运行 |
| 2x RTX 3090 |
FP16 |
完整精度 |
| Mac Studio (192GB+) |
Q6/Q9 |
35-40 TPS |
实测数据(视频评测)
| 版本 |
内存占用 |
推理速度 |
| Q9 |
239 GB |
33-35 TPS |
| Q6 |
173 GB |
35-40 TPS |
评测测试结果
3D 地球生成测试
| 模型 |
效果评价 |
Token 产出 |
| GLM5 |
华丽,正确纹理 |
~7000 |
| Kimi K2.5 |
最华丽,有深度贴图 |
~6000 |
| DeepSeek V3 |
有云层和大气 |
~5000 |
| MiniMax M2.5 (Q9) |
华丽,画廊级别 |
~4000 |
| MiniMax M2.5 (Q6) |
光照略有问题 |
~2000 |
逻辑推理测试
| 测试项 |
禁用思考 |
启用思考 |
| 外科医生问题 |
❌ 答错(母亲) |
⚠️ 需自动触发思考 |
| 电车难题(变体) |
⚠️ 含糊 |
⚠️ 无明确答案 |
| 洗车问题 |
❌ 答错(走路) |
✅ 正确(开车) |
编码能力测试
| 测试项 |
结果 |
| Regex 模式匹配 |
✅ 启用思考后通过 |
| 文本宽度调试 |
⚠️ 未识别换行符 |
| Flappy Bird 3D |
⚠️ 忘记放管道间隙 |
工具调用测试
| 测试项 |
结果 |
备注 |
| 网页内容获取 |
✅ 成功 |
自定义字符数 |
| 维基百科查询 |
✅ 正确答案 |
有点浪费(读取整页) |
| Apple Notes |
✅ 成功 |
- |
与其他模型对比
核心对比表
| 维度 |
MiniMax M2.5 |
Claude Opus 4.6 |
GLM-5 |
Kimi K2.5 |
| 总参数 |
230B |
~400B+ |
744B |
- |
| 激活参数 |
10B |
~400B+ |
40B |
~50B |
| 推理速度 |
100 TPS |
~33 TPS |
~66 TPS |
- |
| SWE-Bench |
80.2% |
80.8% |
77.8% |
- |
| 成本 |
$1.5/M |
$90/M |
$4.2/M |
$2.3/M |
| 性价比 |
🥇 极高 |
低 |
中 |
中 |
优势场景对比
| 场景 |
推荐模型 |
原因 |
| 成本敏感项目 |
MiniMax M2.5 |
成本仅 1/10-1/20 |
| 大规模 Agent |
MiniMax M2.5 |
100 TPS,成本可控 |
| 前端 UI 开发 |
MiniMax M2.5 |
视觉效果最佳 |
| 数学/科学计算 |
GLM-5 |
推理能力最强 |
| 多模态任务 |
Kimi K2.5 |
原生支持图像视频 |
| 法律/金融高精度 |
Claude Opus 4.6 |
综合准确性最高 |
| 复杂系统工程 |
Claude Opus 4.6 |
不计成本的最强选择 |
OpenClaw/VS Code 集成
配置 OpenClaw 使用 MiniMax
// OpenClaw RAW 配置
{
"model": {
"id": "minimax-m2.5",
"provider": "openai-compatible",
"api_base": "http://localhost:8000/v1"
}
}
启用 Prompt Caching
// settings.json
{
"prompt_caching": {
"enabled": true,
"fixed_date": true // 缓存有效期一年
}
}
配置 VS Code Kilo Code
# 环境变量配置
export OPENAI_BASE_URL=http://localhost:8000/v1
export OPENAI_API_KEY=sk-fake-key
注意事项
⚠️ 重要:使用 Infroner 时确保禁用工具调用,避免与 OpenClaw/Kilo Code 的工具调用冲突。
最佳实践
思考模式使用建议
┌─────────────────────────────────────────────────────┐
│ 思考模式使用策略 │
├─────────────────────────────────────────────────────┤
│ │
│ ✅ 推荐禁用思考模式,让模型自动触发 │
│ │
│ 原因: │
│ • 禁用时模型会自行判断是否需要思考 │
│ • 自动触发思考后往往能得出正确答案 │
│ • 强制启用可能导致错误推理 │
│ │
│ 适用任务: │
│ • 复杂编码问题 → 启用思考 │
│ • 简单问答 → 禁用思考 │
│ • 逻辑推理 → 启用思考 │
│ │
└─────────────────────────────────────────────────────┘
Q6 vs Q9 选择建议
| 情况 |
推荐版本 |
| 有 256GB+ 内存 |
Q9(更好质量) |
| 只有 192GB 内存 |
Q6(能运行) |
| 追求速度 |
Q6 |
| 追求质量 |
Q9 |
Token 效率优化
- 启用 Prompt Caching 避免重复处理
- 使用 Fixed Date 延长缓存有效期
- 预估:40000 token ≈ 10 GiB 内存
常见问题
Q1: 为什么我的推理速度很慢?
可能原因:
1. 量化版本过高(如 Q9)
2. 内存不足导致交换
3. 后台进程占用资源
解决方案:使用 Q6 或 INT4 量化
Q2: 逻辑推理测试失败怎么办?
解决方案:
- 禁用思考模式,让模型自动判断
- 或在提示词中明确要求"请仔细思考"
Q3: Q6 版本光照效果不好?
原因:量化导致的艺术细节损失
解决方案:
1. 使用 Q9 版本
2. 或在提示词中增加光照描述
3. 多次请求让模型修复
Q4: 与 OpenClaw 集成时工具调用混乱?
解决方案:
- 禁用 Infroner 的工具调用功能
- 只使用 OpenClaw 的工具定义
Q5: 如何判断应该用 M2.5 还是其他模型?
选择决策树:
需要极致准确? ───── 是 ──→ Claude Opus 4.6
│
否
↓
预算有限? ───── 是 ──→ MiniMax M2.5
│
否
↓
需要多模态? ───── 是 ──→ Kimi K2.5
│
否
↓
需要数学推理? ───── 是 ──→ GLM-5
│
否
↓
默认选择 ──────────→ MiniMax M2.5
参考资料
官方资源
- 官网: https://www.minimax.io/models/text
- API 平台: https://platform.minimaxi.com
- HuggingFace: https://huggingface.co/MiniMaxAI/MiniMax-M2.5
社区教程
视频来源
- 原始评测视频: https://www.youtube.com/watch?v=yWXK6zu_kGE
总结
✅ 优点
- 极致性价比:成本仅为 Claude 的 1/10-1/20
- 高效推理:100 TPS 速度
- 编程能力强:Multi-SWE-Bench 行业第一
- 低显存占用:10B 激活参数
- 原生 Agent 设计:Forge RL 框架
❌ 缺点
- Token 消耗较高
- 复杂后端逻辑处理能力不足
- 逻辑推理偶有失败
- 非编程领域综合能力有差距
- 量化版本质量差异明显
🎯 适用场景
| 推荐使用 |
不推荐使用 |
| 成本敏感项目 |
高精度金融/法律 |
| 大规模 Agent 部署 |
复杂科学研究 |
| 前端 UI 开发 |
需要多模态任务 |
| 快速原型开发 |
极致准确性要求 |
本指南基于 2026-02-22 的信息整理,如有更新请参考官方文档。
相关笔记