雙料齊發！明略科技(2718.HK)正式開源 Cider 端側推理加速框架與 Mano-P 端側模型

日期：2026年5月6日下午3:36

近日，明略科技正式開源自研 Cider 推理加速 SDK（軟件開發工具包），以及端側 GUI 智能體模型 Mano-P。繼此前開源的 Mano-CUA skill 之後，本次 Mano-P 模型的開源直觀展現了端側模型在真實業務閉環中的巨大潛能。而 Cider 框架則從計算算子與硬件調用機制的底層出發，賦能端側大模型在 macOS 係統本地算力下以更高效率、更低内存佔用流暢運行。

Mano-P：驗證端側智能體落地潛能

Mano-P 是明略科技自研的端側 GUI-VLA 智能體模型。它能夠通過純視覺方式理解並操作圖形界面，既不依賴傳統 API 對接，也不局限於浏覽器場景，而是可以直接作用於桌面軟件、網頁係統以及更復雜的圖形化工作流。

復雜的圖形界面交互天然要求模型具備強大的多模態視覺理解能力，模型必須持續、高頻地處理屏幕截圖，精準定位微小的界面元素，並結合視覺反饋執行後續操作。在傳統的雲端大模型架構下，這種高頻的視覺交互所帶來的 token成本消耗極為高昂。

相比之下，參數規模為 4B 的 Mano-P 端側模型，不僅在 CUA 任務上展現出了媲美雲端大模型的準確率，更將原本極其高昂的雲端接口調用成本直接清零。在完全離綫的本地模式下，所有的應用截圖、交互過程與任務數據均被嚴格鎖定在用戶的本地設備之中，將隱私安全成為一種「物理隔離」的必然。

Cider：面向 Apple Silicon 的端側推理加速框架

真正決定端側模型可用性的核心指標，在於本地推理速度、硬件利用率、内存佔用、接入成本以及長期穩定性。如果推理速度過慢，AI 的交互體驗便會大打折扣；如果内存佔用過高，模型就難以在主流設備上廣泛部署；如果接入成本居高不下，企業和開發者便難以將端側能力快速融入自身的業務綫。

Cider 正是在這一背景下應運而生。作為明略科技自研並開源的 SDK（軟件開發工具包），Cider 基於 Apple MLX 生態構建，專為 macOS 與 Apple Silicon 打造。它精準補齊了 MLX 原生框架在激活量化與特定張量計算能力上的缺失，是一套面向廣泛開源模型生態的高效端側推理框架。

圖片來源：明略科技

當前，Apple MLX 原生架構已支持 W4A16、W8A16 等權重量化模式。在此基礎上，Cider 進一步提供了 W8A8 與 W4A8 推理路徑。通過深度融合在綫激活量化、INT8 TensorOps 計算、量化矩陣乘和反量化流程，Cider 充分釋放了 Apple Silicon 的底層計算潛能，讓開源模型不僅「能在 Mac 上跑」，更能以更高效率、更低内存佔用的姿態流暢運行。

在實測數據中，Cider 在 W8A8 模式下的算子速度相較原生 MLX 模式提升約 1.4 至 1.9 倍，具體表現視 Batch Size 而定。而在 W4A8 模式下，Cider 能夠比 W8A8 模式進一步降低 50% 的權重内存佔用，並在高並發場景下與原生 MLX 的全精度 W4A16 方案計算速度相抗衡。

圖片來源：明略科技

針對 Qwen3-VL 係列主流視覺語言模型，Cider 在端到端預填充場景中展現出了極為顯著的加速效果。在不同長度的提示詞下，相較於原生 MLX W8A16 模式，Cider 的 W8A8 PC 模式為 Qwen3-VL-4B 模型帶來了約 17% 至 22% 的預填充速度提升；而在 Qwen3-VL-2B 模型上，這一提速更是躍升至約 57% 至 61%。

圖片來源：明略科技

此外，Cider 還針對多圖推理中的 RoPE 位置處理等技術難點進行了深度優化與非侵入性修復，大幅提升了復雜視覺任務的推理穩定性。由於視覺交互任務通常需要處理更長的上下文、更復雜的截圖信息以及更密集的推理請求，這種量級上的性能躍升對於端側 VLM 和 GUI 智能體而言尤為關鍵。

此外，Cider 積極探索了基於 M4 芯片的 Apple Neural Engine 與 GPU 的異構協同。長期以來，端側大模型推理主要依賴 GPU，而 Apple 芯片中 Neural Engine 的潛力並未被充分挖掘。Cider 通過引入 ANE+GPU 的異構張量並行機制，讓兩類計算單元協同作戰，在部分測試場景下額外斬獲了約 3% 至 16% 的加速效果。

極簡接入，讓更多開源模型獲得本地加速能力

Cider 能夠無縫兼容任意 LLM 模型，涵蓋 Qwen、Llama、Mistral 以及 Qwen3-VL 等 VLM模型，並内置 OpenAI 兼容的 VLM 推理服務。企業及開發者無需重寫模型結構，僅需極少量的代碼適配，即可實現便捷接入。

在預填充階段，Cider 支持啓用 W8A8 INT8 TensorOps 以大幅拉升計算速度；而在解碼階段，框架能夠智能回退至原有權重路徑，有效避免引入不必要的額外開銷。

無論是企業期望在内部網絡中部署高度定制化的本地大語言模型，還是開發者致力於構建垂直領域的私有化人工智能應用矩陣，Cider 都提供了一套堅實、可靠且極具延展性的底層推理基礎設施支撐。

面向私有化 AI，構建本地智能基礎設施

過去，大模型應用大多依賴雲端算力。雲端模型具備更強的規模化能力，但在企業級場景中，數據傳輸成本、隱私安全、調用費用和網絡依賴也成為不可忽視的問題。特別是在涉及内部係統、核心業務流程、敏感界面截圖和任務數據的場景中，端側 AI 可以讓模型更靠近數據發生的地方，在降低傳輸風險的同時，提升響應速度和自主可控性。

Cider 通過提升本地推理效率，讓「數據不出設備」得以更接近真實可用的工程方案。當本地模型具備更好的推理性能，企業便擁有了在諸如本地智能助手、企業内部 Agent、離綫任務執行、端側多模態分析以及高保密要求的自動化流程等更多場景中探索私有化 AI 的底氣。

後續，明略科技還將開源完整的 Mano-Action 訓練方法和相關工具。幫助企業和開發者基於自己的數據訓練定制化 GUI 智能體模型，或在 Mano-Action 基礎上開發新的訓練技術等，全面賦能企業定制與算法創新。

圖片來源：明略科技

明略科技正將自身在智能體、多模態模型和企業級 AI 應用領域的深厚積澱，進一步向下延伸至底層推理框架與端側模型研發的根基之中。我們致力於為廣大開發者與企業用戶提供一套完整、開箱即用的私有化人工智能基礎設施，讓 AI 真正走向私有化部署、低成本運行與可信落地。

内容來源：有連雲

更多精彩內容，請登陸
財華香港網 (https://www.finet.hk/)
現代電視 (http://www.fintv.com)