請輸入關鍵字:

熱門搜尋:

端側 GUI 智能體模型全球第一:Mano-P 如何做到「又強又安全」

日期: 2026年4月14日 下午3:58

2026 年 3 月 24 日,Anthropic 宣佈其 「Computer Use」功能正式獲得「操作你電腦」的能力——在 Claude中,AI 可以移動鼠標、點擊按鈕、打開應用、填寫表格,像一個真正坐在你電腦前的助手那樣工作。

一個新賽道正在以肉眼可見的速度成型:GUI 智能體——不是和你聊天的 AI,而是替你幹活的 AI。

但一個被大多數報道忽略的問題是:當 AI 在幫你操作電腦時,你的屏幕截圖正在被上傳到雲端。Anthropic 自己在官方文檔中警告:「當 Computer Use 激活時,Claude 能看到屏幕上顯示的一切,包括個人數據、敏感文檔或私人信息。」他們甚至建議用戶在虛擬機或容器中運行這項功能。

這不是一個小問題——對於處理客戶數據、財務信息、法律文件的企業來說,這可能是一個根本性的架構選擇問題。

有沒有一種 GUI 智能體,能像 Claude 一樣強大,但數據完全不出設備?

明略科技 Mano-P 已經給出了答案:圍繞隱私與個性化兩大支柱,72B 模型屠榜證明實力,4B 蒸餾版上機證明可用——在 OSWorld 專用模型榜以 58.2% 成功率拿下全球第一,領先第二名超過 13 個百分點,而這一切完全在你自己的 Mac 上本地運行。

image

圖片來源:明略科技

關鍵要點

GUI 智能體賽道逐漸成型:Anthropic 發佈 Claude Computer Use 桌面版

核心矛盾浮出水面:當前主流 GUI 智能體都需要將屏幕截圖上傳雲端,Anthropic 官方文檔明確警告隱私風險

72B 屠榜,4B 上機:明略科技Mano-P 72B 模型以 58.2% 成功率拿下 OSWorld 專用模型全球第一,蒸餾為 4B 版本後可在 M4 Mac 上流暢運行

端側模型不等於弱模型:Mano-P 在 WebRetriever 等多個基準測試中超越多個千億參數級通用大模型

架構級安全:本地模式下所有推理在設備上完成,屏幕截圖不出設備,支持完全離綫運行

AI for Personal 雙支柱:隱私(數據不出設備)+ 個性化(三階段逐步釋放完整技術棧)

二、GUI 智能體是什麼?為什麼它是 AI 落地的關鍵一步

過去兩年,大模型的能力主要體現在「說」——寫文章、回答問題、生成代碼。但企業真正需要的不是一個能說會道的聊天機器人,而是一個能真正幹活的數字員工。

GUI 智能體(GUI Agent)就是這一步的關鍵跨越。它的核心能力是:通過理解圖形用戶界面(GUI),像人類一樣操作電腦完成任務。你告訴它「幫我在 CRM 係統裡錄入今天的客戶拜訪記錄」,它就真的打開 CRM、找到對應字段、填寫内容、點擊保存——全程不需要你動手。

這和傳統的 RPA(機器人流程自動化)有本質區別:

RPA 依賴係統 API 和預設規則,界面一改版就得重配,維護成本高,靈活性差。

GUI 智能體 基於視覺理解,像人一樣「看」屏幕、「理解」界面、「決定」下一步操作。界面改了?它能自適應,因為它理解的是語義,不是像素坐標。

這個差異意味著什麼?意味著 GUI 智能體可以操作任何人類能操作的軟件——不管是現代 SaaS 工具、老舊的 ERP 係統,還是只有圖形界面沒有 API 的專業軟件。它解鎖的不是某一個係統的自動化,而是通用的桌面自動化能力。

三、行業現狀:能力很強,但有兩個根本性問題

截至目前,GUI 智能體賽道的主流方案幾乎都走了同一條路:依賴雲端大模型推理。底層邏輯都是「截屏→上傳雲端→模型推理→返回操作指令」。

這條路有兩個根本性的問題:

第一個問題是數據安全。你的每一張屏幕截圖都在雲端服務器上走了一遭。對於個人用戶操作浏覽器這種場景,這或許可以接受。但當企業把 GUI 智能體用在審查合同、處理財務報表、錄入客戶數據等核心業務時,合規團隊會問:「這些截圖存在哪裡?誰能看到?保留多久?」

第二個問題更根本:雲端 AI 不可能真正「主動」幫你。 真正有用的 AI 助手應該是主動的——自己發現你有個會議快開了,自動幫你準備資料;看到重要郵件,自動提醒你。但這種主動性意味著 AI 要不停地自發運算。在雲端,每一次運算都消耗平台的算力和費用——AI 越主動,平台越虧錢。所以雲端平台必然限制 AI 的主動性,這就是為什麼你用 ChatGPT 從來不會看到它主動找你。

端側模型從根本上解決了這兩個問題:AI 跑在你自己的設備上,用的是你自己的芯片和電——它主動運行一萬次也不花平台一分錢;同時數據一步都不出你的設備。

這就引出了一個關鍵問題:有沒有一種端側方案,性能也能達到頂級?

四、Mano-P:72B 屠榜,4B 上機

在上述格局中,明略科技近期開源的的 Mano-P 佔據了一個獨特的位置:專用模型性能第一 + 端側本地運行。

image

圖片來源:明略科技

性能:不是「也能用」,是「最能打」

image

圖片來源:明略科技

72B 模型屠榜證明技術實力,蒸餾為 4B 上機證明日常可用。對於Mano-P來說,能力和便捷不是二選一。經過專項訓練和優化的專用模型,完全可以在特定任務上達到甚至超越通用大模型的水平。端側模型不等於弱模型。

image

圖片來源:明略科技

安全:不是「更安全」,是「架構級安全」

Mano-P 的本地模式不是在已有的雲端架構上「加了一層加密」,而是從架構層面消除了數據外洩的可能性:

image

圖片來源:明略科技

對於金融機構審查合同、醫療機構處理病歷、政務係統錄入公民信息等場景,這種「架構級安全」不是加分項,而是準入門檻。

技術:怎麼做到「又大又快」

在一台 Mac 上運行大參數模型做 GUI 操作,聽起來不太現實。Mano-P 靠三項核心技術解決了這個問題:

GSPruning 視覺 Token 剪枝:處理高分辨率屏幕截圖時,智能保留界面結構骨架和關鍵 UI 元素,將視覺 Token 數量壓縮至 12.57%——相當於只看屏幕上最重要的 13% 信息,推理速度提升數倍,而任務成功率幾乎不損失。

混合精度量化(w4a16):用更緊湊的方式存儲模型——權重用 4bit,激活值保留 16bit。效果:4B 量化版本在 M4 Pro 上峰值内存僅 4.356GB,每秒能吐出約 300-400 個中文字,跑 AI 的同時你還能正常辦公。

Mano-Action 雙向自增強訓練:傳統模型只學「你告訴我點哪裡,我就點哪裡」。Mano-P 同時學習正向和反向兩個方向,通過循環一致性互相驗證。配合三階段漸進訓練(監督微調→離綫強化學習→在綫強化學習),模型從「背操作手冊」進化到「真正學會操作界面」。

五、怎麼讓 Mano-P在本地設備上自主操作界面完成任務?

Mano-P 提供了三種使用形式,覆蓋從開發者到普通用戶的不同需求:

image

圖片來源:明略科技

其中 mano-skill 最值得關注。作為 OpenClaw 等 AI Agent 平台的技能插件,Mano-P 賦予了 Agent 「看屏幕、動鼠標」的能力。OpenClaw 是大腦,Mano-P 是雙手——全鏈路開源,全程端側運行,數據一步不出你的設備。

舉個例子:你在 OpenClaw 中對 Agent 說「幫我把這份報告的數據錄入到公司的 ERP 係統裡」,Agent 自動規劃任務步驟,需要操作界面時調用 mano-skill,Mano-P 接管屏幕操作——整個過程在本地完成,Agent 編排和 GUI 執行無縫銜接。

運行時,屏幕右上角會顯示一個狀態面板,實時顯示任務進度,用戶可以隨時暫停或停止。每一步操作執行前,敏感或潛在危險的操作會要求用戶確認——AI 幹活,人類監督。

六、從「能用」到「敢用」:三階段開源路綫

GUI 智能體賽道正處於從「技術驗證」到「規模落地」的關鍵轉折點。

從技術趨勢看,兩個方向正在同步發展:一是通用大模型持續提升 GUI 操作能力,二是專用端側模型通過精巧的訓練和優化方法,在更小的參數規模上逼近甚至超越通用模型的任務表現。Mano-P 已經用實測數據證明了後一條路綫的可行性——而這條路綫天然兼容數據安全和合規要求。

Mano-P 代表的端側路綫給出了一個清晰的回答:AI 最強大的能力,應該跑在每個人自己的設備上。 開源、本地、可審計——AI 最強大的能力,應該跑在每個人自己的設備上。這不是一句口號,而是一個正在被實現的技術路綫。

image

圖片來源:明略科技

立即體驗:`brew install mano-cua`

image

圖片來源:明略科技

七、常見問題

Q: Mano-P 是什麼?

Mano-P 是一個開源的 GUI-VLA(Vision-Language-Action)智能體,設計用於在蘋果芯片邊緣設備上本地運行。它使用純視覺理解來跨平台自動化桌面 GUI 操作。Mano 是西班牙語裡」手」的意思,P 有兩重含義:Person(個體)與 Party(組織)——我們相信,無論個人還是企業,都能夠創造屬於自己的個性化 AI。核心理念:AI for Personal = 隱私 + 個性化。

Q: Mano-P 與 Claude Computer Use 相比如何?

image

圖片來源:明略科技

Mano-P 在專用模型中排名全球第一,在網頁檢索等任務上領先 Claude,且天然滿足數據安全要求。適合高安全需求場景。

Q: Mano-P 可以離綫運行嗎?

可以! 在本地模式下,所有模型推理都在 Apple M4 設備上運行。✅ 不會向外部服務器發送任何截圖或任務描述。

Q: 需要什麼硬件配置?

最低要求:Mac mini 或 MacBook;Apple M4 芯片;32GB 内存

替代方案:任何 Mac + Mano-P 算力棒(通過 USB 4.0+ 連接)

我們計劃在未來支持更多設備。

了解更多:[GitHub – Mininglamp-AI/Mano-P] (https://github.com/Mininglamp-AI/Mano-P)

内容來源:有連雲

財華網所刊載內容之知識產權為財華網及相關權利人專屬所有或持有。未經許可,禁止進行轉載、摘編、複製及建立鏡像等任何使用。

如有意願轉載,請發郵件至 content@finet.com.hk,獲得書面確認及授權後,方可轉載。

下載APP 下載財華財經APP,把握投資先機
更多精彩内容,請點擊: 財華網(https://www.finet.hk/) 財華智庫網(https://www.finet.com.cn) 現代電視FINTV(http://www.fintv.hk)

視頻

快訊

17:36
中國海外宏洋集團(00081.HK)一季度經營溢利同比下降19.6%
17:27
南粵控股(01058.HK)前三個月股東應佔綜合利潤411.1萬港元
17:20
中國電信(00728.HK)一季度股東應佔利潤73.5億元 同比减少17.1%
17:02
百奧家庭互動(02100.HK)獲董事會主席增持16.6萬股
16:53
泛遠國際(02516.HK):王添天獲任執行董事
16:33
香港證監會與羅兵咸永道就中國恒大2019年及2020年虛假財務報表達成向股東賠償10億港元協議
16:26
【大行報告】港股IPO年初至今市場持續火熱 富途料內地AI產業鏈概念公司新股持續獲投資者關注
16:20
【異動股】港股跌幅榜前十,華億金控(08552.HK)跌47.50%,KFM金德(03816.HK)跌40.89%
16:20
【異動股】港股漲幅榜前十,華鼎控股(03398.HK)漲135.19%,恒嘉融資租賃(00379.HK)漲56.94%
16:15
博威合金:美國光伏暫未發現有資產減值的迹象