Ollama MLX 支持¶

Ollama MLX 支持 是 Ollama 在 v0.9 版本中引入的一項功能，透過整合 Apple Silicon 專用的推理引擎 MLX，大幅提升了在 MacBook 上本地運行大語言模型（LLM）的性能^[001-TODO__Ollama_MLX_Support_MacBook_Local_LLM.md]。

性能提升¶

根據官方測試數據，啟用 MLX 支援後，Ollama 在 Apple Silicon 硬體上的表現有顯著進步^[001-TODO__Ollama_MLX_Support_MacBook_Local_LLM.md]：

指標	MLX 支持 (v0.9)	上一版本	增幅
綜合推理性能	1810	1154	約 57%
文本生成速度	112 tok/s	58 tok/s	約 93%

這項更新實現了近乎翻倍的性能提升，使得本地模型運行效率更接近生產環境需求^[001-TODO__Ollama_MLX_Support_MacBook_Local_LLM.md]。

實測表現¶

在一配備 Apple M3 Max（36 GB 統一記憶體）的設備上，運行 Qwen 3.5 35B 模型的實測結果如下^[001-TODO__Ollama_MLX_Support_MacBook_Local_LLM.md]：

GPU 利用率：接近 100%（三核心全開），顯示 MLX 引擎被高效調用。
記憶體占用：約 19 GB（佔總 RAM 的 80%）。
生成速度：約 65-66 tokens/秒。
Prompt 處理：5.3 tokens/秒。

該模型量化為 NVFP4 格式後大小約為 18.66 GB，推薦使用至少 32 GB 的統一記憶體以獲得最佳體驗^[001-TODO__Ollama_MLX_Support_MacBook_Local_LLM.md]。

技術特點¶

硬體加速：MLX 是專為 Apple Silicon 設計的推理引擎，能夠高效調用 GPU 和統一記憶體架構^[001-TODO__Ollama_MLX_Support_MacBook_Local_LLM.md]。
記憶體管理：當物理記憶體（RAM）不足時，系統會利用 swap 空間進行補償，但這會帶來一定的性能損失^[001-TODO__Ollama_MLX_Support_MacBook_Local_LLM.md]。
使用者介面：新版 Ollama 提供了類似 ChatGPT 的 Web UI，支援參數調節和模型切換功能^[001-TODO__Ollama_MLX_Support_MacBook_Local_LLM.md]。

安裝與使用¶

Ollama MLX 支援已整合至 Ollama 的 macOS 客戶端中（v0.9 及以上版本）。安裝流程非常簡便^[001-TODO__Ollama_MLX_Support_MacBook_Local_LLM.md]：

下載 Ollama macOS 版本安裝包。
將應用程式拖拽至 Applications 資料夾。
在終端機運行 ollama run <model-name> 即可開始使用。

Sources¶

001-TODO__Ollama_MLX_Support_MacBook_Local_LLM.md