Skip to content

Ollama MLX 支持

Ollama MLX 支持 是 Ollama 在 v0.9 版本中引入的一項功能,透過整合 Apple Silicon 專用的推理引擎 MLX,大幅提升了在 MacBook 上本地運行大語言模型(LLM)的性能^[001-TODO__Ollama_MLX_Support_MacBook_Local_LLM.md]。

性能提升

根據官方測試數據,啟用 MLX 支援後,Ollama 在 Apple Silicon 硬體上的表現有顯著進步^[001-TODO__Ollama_MLX_Support_MacBook_Local_LLM.md]:

指標 MLX 支持 (v0.9) 上一版本 增幅
綜合推理性能 1810 1154 約 57%
文本生成速度 112 tok/s 58 tok/s 約 93%

這項更新實現了近乎翻倍的性能提升,使得本地模型運行效率更接近生產環境需求^[001-TODO__Ollama_MLX_Support_MacBook_Local_LLM.md]。

實測表現

在一配備 Apple M3 Max(36 GB 統一記憶體)的設備上,運行 Qwen 3.5 35B 模型的實測結果如下^[001-TODO__Ollama_MLX_Support_MacBook_Local_LLM.md]:

  • GPU 利用率:接近 100%(三核心全開),顯示 MLX 引擎被高效調用。
  • 記憶體占用:約 19 GB(佔總 RAM 的 80%)。
  • 生成速度:約 65-66 tokens/秒
  • Prompt 處理:5.3 tokens/秒。

該模型量化為 NVFP4 格式後大小約為 18.66 GB,推薦使用至少 32 GB 的統一記憶體以獲得最佳體驗^[001-TODO__Ollama_MLX_Support_MacBook_Local_LLM.md]。

技術特點

  • 硬體加速:MLX 是專為 Apple Silicon 設計的推理引擎,能夠高效調用 GPU 和統一記憶體架構^[001-TODO__Ollama_MLX_Support_MacBook_Local_LLM.md]。
  • 記憶體管理:當物理記憶體(RAM)不足時,系統會利用 swap 空間進行補償,但這會帶來一定的性能損失^[001-TODO__Ollama_MLX_Support_MacBook_Local_LLM.md]。
  • 使用者介面:新版 Ollama 提供了類似 ChatGPT 的 Web UI,支援參數調節和模型切換功能^[001-TODO__Ollama_MLX_Support_MacBook_Local_LLM.md]。

安裝與使用

Ollama MLX 支援已整合至 Ollama 的 macOS 客戶端中(v0.9 及以上版本)。安裝流程非常簡便^[001-TODO__Ollama_MLX_Support_MacBook_Local_LLM.md]:

  1. 下載 Ollama macOS 版本安裝包。
  2. 將應用程式拖拽至 Applications 資料夾。
  3. 在終端機運行 ollama run <model-name> 即可開始使用。

相關概念

  • [[Apple Silicon]]
  • [[LLM]] (Large Language Model)
  • [[量化 (Quantization)]]
  • [[統一記憶體架構]]

Sources

  • 001-TODO__Ollama_MLX_Support_MacBook_Local_LLM.md