Ollama MLX 支持¶
Ollama MLX 支持 是 Ollama 在 v0.9 版本中引入的一項功能,透過整合 Apple Silicon 專用的推理引擎 MLX,大幅提升了在 MacBook 上本地運行大語言模型(LLM)的性能^[001-TODO__Ollama_MLX_Support_MacBook_Local_LLM.md]。
性能提升¶
根據官方測試數據,啟用 MLX 支援後,Ollama 在 Apple Silicon 硬體上的表現有顯著進步^[001-TODO__Ollama_MLX_Support_MacBook_Local_LLM.md]:
| 指標 | MLX 支持 (v0.9) | 上一版本 | 增幅 |
|---|---|---|---|
| 綜合推理性能 | 1810 | 1154 | 約 57% |
| 文本生成速度 | 112 tok/s | 58 tok/s | 約 93% |
這項更新實現了近乎翻倍的性能提升,使得本地模型運行效率更接近生產環境需求^[001-TODO__Ollama_MLX_Support_MacBook_Local_LLM.md]。
實測表現¶
在一配備 Apple M3 Max(36 GB 統一記憶體)的設備上,運行 Qwen 3.5 35B 模型的實測結果如下^[001-TODO__Ollama_MLX_Support_MacBook_Local_LLM.md]:
- GPU 利用率:接近 100%(三核心全開),顯示 MLX 引擎被高效調用。
- 記憶體占用:約 19 GB(佔總 RAM 的 80%)。
- 生成速度:約 65-66 tokens/秒。
- Prompt 處理:5.3 tokens/秒。
該模型量化為 NVFP4 格式後大小約為 18.66 GB,推薦使用至少 32 GB 的統一記憶體以獲得最佳體驗^[001-TODO__Ollama_MLX_Support_MacBook_Local_LLM.md]。
技術特點¶
- 硬體加速:MLX 是專為 Apple Silicon 設計的推理引擎,能夠高效調用 GPU 和統一記憶體架構^[001-TODO__Ollama_MLX_Support_MacBook_Local_LLM.md]。
- 記憶體管理:當物理記憶體(RAM)不足時,系統會利用 swap 空間進行補償,但這會帶來一定的性能損失^[001-TODO__Ollama_MLX_Support_MacBook_Local_LLM.md]。
- 使用者介面:新版 Ollama 提供了類似 ChatGPT 的 Web UI,支援參數調節和模型切換功能^[001-TODO__Ollama_MLX_Support_MacBook_Local_LLM.md]。
安裝與使用¶
Ollama MLX 支援已整合至 Ollama 的 macOS 客戶端中(v0.9 及以上版本)。安裝流程非常簡便^[001-TODO__Ollama_MLX_Support_MacBook_Local_LLM.md]:
- 下載 Ollama macOS 版本安裝包。
- 將應用程式拖拽至
Applications資料夾。 - 在終端機運行
ollama run <model-name>即可開始使用。
相關概念¶
- [[Apple Silicon]]
- [[LLM]] (Large Language Model)
- [[量化 (Quantization)]]
- [[統一記憶體架構]]
Sources¶
001-TODO__Ollama_MLX_Support_MacBook_Local_LLM.md