Skip to content

Ollama MLX 支持 — MacBook 本地运行大语言模型¶

[!info] 来源 YouTube: Ollama MLX Support MacBook created: 2026-04-11 tags: [LLM, Ollama, MLX, Apple-Silicon, 本地推理]

核心内容¶

Ollama 发布了对 Apple Silicon 专用推理引擎 MLX 的新支持，大幅提升 MacBook 本地运行 LLM 的性能。

性能提升¶

指标	MLX 支持 (v0.9)	上一版本
综合推理性能	1810	1154
文本生成速度	112 tok/s	58 tok/s

接近翻倍的性能提升。

演示模型¶

Qwen 3.5 35B — 量化为 NVFP4 格式（NVIDIA 4-bit 量化）
模型大小：21 GB（压缩后 18.66 GB）
推荐最低 32 GB 统一内存

实测环境与结果¶

设备: Apple M3 Max, 36 GB 统一 RAM
内存占用: 约 19 GB（80% RAM 使用率）
GPU 利用率: 接近 100%（三核全开）
生成速度: 约 65-66 tokens/秒
Prompt 处理: 5.3 tokens/秒

安装方式¶

下载 Ollama macOS 版本（v0.9+）
拖拽到 Applications 文件夹
终端运行即可

关键要点¶

MLX 是 Apple Silicon 专用推理引擎，能高效利用 GPU 和统一内存
RAM 不足时可借助 swap 补充（会有性能损失）
Ollama 现提供 ChatGPT 风格的 Web UI，支持参数调节和模型切换
GPU 利用率 100% 说明 MLX 被高效调用