請輸入關鍵字:

熱門搜尋:

明略科技(2718.HK)大模型再獲世界級突破!Mano以72B參數獲 OSWorld 榜單Specialized 模型第一

日期: 2025年11月11日 上午11:32

明略科技(2718.HK)自研大模型Mano再獲世界級突破!

據OS-WorldE2E官方榜單最新數據(截至2025年10月),明略科技自研的GUI智能體大模型Mano以54.0%的任務成功率刷新紀錄,位列Specialized模型第一、模型總榜第二,僅次於Anthropic最新發佈的Claude 4.5。

image

Mano以72B參數在OSWorld-Verified榜單的FoundationE2EGUI評測總榜位列第二。

與今年9月首次提交的數據相比,Mano的參數規模從7B擴展至72B(約720億),任務完成率從40.1%提升到54.0%,性能實現了顯著提升。這也標誌著專用智能體在真實操作任務中的執行能力達到新高度。

image

Mano以72B參數在OS World-Verified榜單的Foundation E2E GUI&Specialized Model評測中位列第一。

從語言到行動:智能體的下一階段

OSWorld是目前全球最具權威的「操作智能」評測體係,涵蓋10類應用、369個跨應用任務。它要求模型在真實的桌面和浏覽器環境中執行連續操作——例如打開電子表格、搜索信息、整理數據、完成填報。這類任務遠比問答生成復雜,因為每一步都需要模型既理解内容,又理解「界面結構」,並能在多次操作中保持邏輯連貫。

在此前的測試中,即便是頂級的通用大模型,在OSWorld上的成功率也常停留在30%–40%區間。而Mano72B的最新成績——54.0%的端到端任務成功率——不僅刷新了中國模型的最高紀錄,也讓「專用智能體」第一次在這個「AI操作考場」中站上了前列。

這背後的技術路綫也與傳統語言模型截然不同。明略科技在最新版技術報告《ManoTechnicalReport》(報告鏈接:https://arxiv.org/abs/2509.17336)中係統闡述了其方法:模型的訓練並不是基於單純的文本對話,而是在高保真的模擬電腦環境中反復嘗試與學習。可以理解為,Mano被放進了一個巨大的虛擬操作係統,在其中學習如何移動光標、點擊按鈕、識別菜單、輸入數據,並通過反復試錯掌握任務完成的最佳路徑。

技術原理:讓模型在「真實環境」中學習

Mano的訓練框架包含三個階段:監督微調(SFT)、離綫強化學習(OfflineRL)和在綫強化學習(OnlineRL)。簡單來說,SFT階段相當於「老師教範例」,模型學習基礎操作方法;離綫強化學習階段讓模型通過過去的任務經驗學會「舉一反三」;而在綫強化學習階段則是在真實環境中持續練習、發現新策略。

明略科技還引入了一個名為「Think–Act–Verify」的執行閉環:模型在操作時,會先判斷當前界面狀態(Think),再執行具體動作(Act),最後驗證結果是否正確(Verify)。如果執行出錯,模型會自動調整步驟重新嘗試。這讓Mano在面對復雜、多變的操作場景時,能夠實現自我修正和容錯。

舉個通俗的例子:當你讓智能體「下載一份財務報表」時,通用大模型可能只會給出一段操作說明,而Mano會真的打開浏覽器、登錄賬戶、識別下載按鈕、選擇正確的日期範圍,並在出現錯誤提示時重新登錄、重試。這種能力的獲得,正是通過強化學習與高保真訓練環境協同實現的。

根據論文數據,Mano在加入在綫強化學習後,模型平均任務完成率提升了約14個百分點,尤其在多步驟任務(multi-turntask)中表現穩定。研究團隊指出,這種「在環境中學習」的方式,是實現操作智能的關鍵:模型不再依賴靜態語料,而是通過持續交互獲得反饋,從而具備「學習如何行動」的能力。

專用智能體的競爭力

長期以來,大模型的性能評估主要集中在語言理解、知識問答或内容生成任務上。而GUI智能體的出現,讓AI的邊界從「文字世界」延伸到了真實的操作係統中。與通用大模型相比,專用智能體的核心優勢在於——它們不追求覆蓋所有知識,而是致力於在特定任務上實現更高的執行深度與穩定性。

Mano的成績正是這一趨勢的體現。通過結構化的任務數據、針對性的強化學習和驗證機制,模型在界面識別、動作規劃和過程穩定性方面表現出了持續進步。OSWorld官方評述指出,這一成果「展示了專用智能體在真實任務執行中的潛力,也標誌著多模態智能體研究的工程化進展。」

對明略科技而言,Mano不僅是一項研究成果,也正逐步成為企業智能係統的底層技術。公司正在探索如何將Mano的操作智能嵌入到數據分析、營銷自動化、合規管理等具體場景,使模型能在實際業務流程中承擔「數字助理」的角色。研究團隊同時提到,未來的方向包括提升推理效率、減少交互步長,並推動端側輕量化部署,讓智能體在普通硬件環境中也能穩定運行。

從7B到72B,從40.1%到54.0%,Mano的進化歷程不僅是一次參數增長,更是一種能力遷移——從語言理解到操作智能的跨越。明略科技技術團隊在報告中表示,未來Mano將繼續優化推理效率與任務泛化能力,並探索端側部署與行業級落地路徑,使智能體能力真正融入企業生産流程。當模型不再只「輸出答案」,而是真正「完成任務」,人工智能才開始具備通往真實世界的執行力。

内容來源:有連雲

財華網所刊載內容之知識產權為財華網及相關權利人專屬所有或持有。未經許可,禁止進行轉載、摘編、複製及建立鏡像等任何使用。

如有意願轉載,請發郵件至 content@finet.com.hk,獲得書面確認及授權後,方可轉載。

下載APP 下載財華財經APP,把握投資先機
更多精彩内容,請點擊: 財華網(https://www.finet.hk/) 財華智庫網(https://www.finet.com.cn) 現代電視FINTV(http://www.fintv.hk)

視頻

快訊

15:15
安寧股份:年產6萬噸能源級鈦(合金)材料全產業鏈項目預計今年6月底進入試生產狀態
15:04
高瓴领投 SportVision完成天使+轮融资
14:53
格羅方德推出SCALE光學模塊解決方案
14:41
遠大住工(02163.HK):選舉李維平為董事長
14:35
韓國KOSPI指數收跌3.25%
14:33
日經225指數收跌0.44%
14:27
柯馬簽署具有約束力協議 全面收購巴西倉儲物流自動化企業Invent
14:16
東山精密:已與外部硅光企業開展合作並布局自研硅光模塊產品
14:10
招金黃金:瓦圖科拉金礦技改整體進展符合預期 計劃2026年底完成升級改造
14:02
現代汽車集團等九家企業簽署標誌性氫能合作備忘錄 推動香港綠色經濟發展