如果給2026年上半年的開發者社區選一個關鍵詞,"本地AI"可能會高票當選。
這股風潮的標誌性事件發生在3月底:Ollama宣佈其Mac版本從llama.cpp切換到蘋果原生的MLX框架。緊隨其後,大量開發者開始將自己的AI工作流遷移到本地Mac上運行。驅動力很簡單——數字太有說服力了。在M5芯片上,MLX框架帶來了prefill速度提升57%、生成速度近乎翻倍的實測表現。
Apple Silicon統一内存架構的優勢終於被充分釋放:CPU和GPU共享同一塊物理内存,數據無需在不同存儲池之間搬運;M5芯片更在每個GPU核心中嵌入了Neural Accelerator,通過Metal 4的TensorOps API提供原生AI推理加速。硬件層面,蘋果已經為端側AI鋪好了路。
但開發者們很快發現了一個問題。
MLX的"半成品"現狀
MLX目前支持的量化模式是W4A16和W8A16——即只對模型"權重"進行量化壓縮(分別壓縮到4bit和8bit),而計算過程中的"激活值"仍然保持FP16(16位浮點數)格式。
這意味著什麼?意味著蘋果專門為INT8運算設計的Neural Accelerator硬件,在MLX框架下並沒有被完整利用。權重被壓縮了,但實際計算的數據精度還是FP16,GPU的INT8加速單元基本處於閑置狀態。
打個比方:蘋果給了一輛配備渦輪增壓的跑車,但MLX只把它當自然吸氣在開。硬件潛力釋放了一半,還有一半鎖在駕駛模式的限制裡。
這不是MLX的設計缺陷——激活量化的工程難度確實高於權重量化,需要解決校準精度、算子適配、硬件調度等一係列問題。但對於希望在Mac上運行生産級AI的開發者而言,這是一個明確的性能天花板。
Cider:精準補位的一行代碼
明略科技近日開源的Cider推理加速SDK,精準地切入了這個缺口。它在MLX生態的基礎上,補齊了W8A8和W4A8兩條激活量化路徑——既支持權重8bit+激活8bit(保持模型能力的前提下最大化加速),也支持權重4bit+激活8bit(在極致内存壓縮的同時獲得INT8加速)。
工程層面最值得關注的是接入成本:一行代碼完成模型轉換。開發者不需要重新訓練模型、不需要修改推理腳本、不需要學習新的框架——在現有MLX工作流中加入一行convert_model()調用即可。
性能數據很實在。在M5 Pro芯片上,W8A8模式下單算子速度比原生MLX提升1.82-1.86倍。對於視覺語言模型(VLM),Qwen3-VL-2B的端到端預填充速度提升57%-61%,Qwen3-VL-4B提升17%-22%。在實驗性的ANE+GPU異構協同模式下,M4芯片上還能獲得額外3%-17%的加速。
精度方面,W8A8量化後的模型PPL(困惑度)與FP16原始精度相比差距僅0.03。幾乎可以認為是無損加速。
生態兼容:不是另起爐竈
Cider的另一個關鍵設計選擇是:完全基於MLX生態構建,而不是試圖替代它。
這意味著所有已經適配MLX的開源模型——Qwen、Llama、Mistral、Phi等——都可以無縫受益於Cider的加速能力,無需等待模型方單獨適配。對於開發者而言,這不增加技術棧復雜度,只減少推理延遲。
從蘋果生態的角度看,Cider填補的是MLX框架演進路綫中尚未到達的位置。蘋果在WWDC 2025上展示的MLX路綫圖中,激活量化是明確的發展方向,但官方實現的時間表尚不確定。Cider提前為開發者提供了這一能力,且保持了與MLX API的完全兼容——即便未來MLX原生支持激活量化,現有的Cider代碼也不需要大幅重構。
對端側AI生態的意義
Cider解決的不只是一個性能優化問題。它改變的是Mac作為AI開發和部署平台的能力邊界。
當Neural Accelerator被真正用起來,一台Mac能承載的模型規模和推理速度都會上一個台階。4B參數的視覺語言模型可以流暢運行GUI操作任務,7B-14B的語言模型可以支撐更復雜的Agent推理鏈路——這些過去需要專用GPU服務器才能實現的能力,現在在一台桌面設備上就能跑通。
明略科技同步開源的Mano-P端側智能體模型,就是Cider能力的一個直接受益者。4.3GB峰值内存、476 tokens/s預填充速度、76 tokens/s解碼速度——這組數據的背後,是Cider將Apple Silicon的硬件潛力充分釋放後的結果。
對於整個Apple端側AI生態而言,Cider的開源意味著一個關鍵瓶頸被清除。MLX為Mac上的AI推理建立了基礎框架,Cider在這個框架上補齊了硬件利用率的最後一塊拼圖。兩者疊加,讓"Mac即AI工作站"不再是一句營銷口號,而是一個可以用benchmark數據支撐的工程事實。
内容來源:有連雲
財華網所刊載內容之知識產權為財華網及相關權利人專屬所有或持有。未經許可,禁止進行轉載、摘編、複製及建立鏡像等任何使用。
如有意願轉載,請發郵件至 content@finet.com.hk,獲得書面確認及授權後,方可轉載。
國内領先的智能金融信息引擎