6月1日,英偉達創始人黃仁勳在台北GTC大會上用一句話給AI行業的新範式定了調——AI已經從大語言模型階段,正式跨入能夠自主觀察、推理、規劃並調用工具的Agentic AI時代。
這場演講的核心信號不是某一款芯片或某一個模型,而是一個係統性判斷:智能體正在徹底改變傳統的計算模式,從雲端數據中心到每個人面前的PC電腦,整個科技行業的軟硬件架構都需要深度重構。
黃仁勳為此拿出了一個覆蓋全鏈路的産品矩陣:雲端的Vera Rubin智能體超算係統、企業級的Agent Toolkit工具包、端側的RTX Spark個人AI電腦、物理世界的Cosmos-3機器人模型。所有産品指向同一個目標——讓海量智能體以更低延遲、更低成本在各種終端高效運行。
因為在智能體時代,"算力即收入(Compute is Revenue)"。
數據主權:智能體落地繞不開的安全底綫
黃仁勳在演講中反復強調安全性。他指出,智能體由模型、框架、工具、技能和運行時組成,是一個解耦的分佈式異構計算係統。當智能體越來越深入地接管企業和個人工作流——處理代碼、分析數據、調用工具——數據安全和隱私保護就成為繞不過去的前提。
為此,英偉達推出了開源的Open Shell運行時。黃仁勳在演講中說:"該Shell保護智能體遵循安全策略,同時保護隱私、權利和身份。"Open Shell已被Red Hat、Canonical和Microsoft等廣泛採用,並且可以在"任何雲端、本地甚至設備端"運行。
這句"本地甚至設備端"值得細品。它意味著安全策略不再是雲端的專屬,智能體在用戶的PC上運行時,同樣受到隱私和安全框架的保護。對於中國企業而言,這一點尤為關鍵。在《數據安全法》和《個人信息保護法》的合規框架下,企業最有價值的數據——客戶信息、交易記錄、廣告投放效果、内部經營數據——往往也是合規要求最嚴格的數據。
而明略科技也曾明確指出這條路綫的三個關鍵優勢:第一是數據主權,不需要超大基模,可以部署規模小一些的開源模型,個人數據和公司數據不用傳到雲端;第二是可審計,開源白盒模式,可以被監管和檢查;第三是保護人在組織中的價值與利益。
可以說,智能體要在企業場景中規模化落地,數據主權是必答題。
端側模型:從"能不能跑"到"跑得好、跑得省"
演講中最值得關注的趨勢判斷之一,是黃仁勳對端側計算的重新定義。他說:"40年後的今天,Microsoft和NVIDIA將重新發明新PC。"黃仁勳預言:"這次對計算機的重塑,意義不亞於將電話重塑為智能手機。"
端側算力的爆發,讓一個根本性問題浮出水面:有了強大的本地硬件,誰來提供在端側高效運行的模型?
明略科技已經給出了經過驗證的答案。
今年,明略科技分階段開源了Mano-P——可在Mac本地運行的GUI-VLA智能體模型。企業想用AI自動化處理敏感數據,但雲端方案要求把截圖和文檔上傳到遠程服務器,這在高合規場景是致命傷。Mano-P核心解決的,正是從"雲端依賴"到"本地自主"的關鍵躍遷。
Mano-P的72B版本在OSWorld專用模型榜上取得58.2%成功率,領先第二名13.2個百分點,位列全球第一。而其4B量化版本專為端側設計,在Apple M4 Pro上實現476 tokens/s預填充、76 tokens/s解碼,峰值内存僅4.3GB。72B證明技術上限,4B證明日常可用——這正是端側模型從"技術可行"邁向"生産可用"的關鍵一步。
與Mano-P配合的,是明略科技開源的端側推理加速框架Cider。Apple Silicon的M5芯片内置了專用的INT8 TensorOps矩陣乘單元,但主流推理框架MLX只做了權重量化,計算仍走FP16路徑——芯片裡的INT8算力全程閑置。Cider通過W8A8全量化推理,直接調用M5芯片的INT8硬件指令,實測Prefill速度比MLX原生方案提升1.79倍,内存降低約40%,精度幾乎無損。
一組數據對比足以說明問題:在M5 Pro上運行Qwen3-8B,MLX原生W8A16量化的Prefill時間是221.3秒——甚至比不量化的FP16(179.9秒)還慢。而Cider W8A8只需123.5秒,同時困惑度僅比FP16高0.03。權重量化省内存,激活量化省時間——Cider補上的正是後者。
黃仁勳在演講中介紹Nemotron 3 Ultra時強調,這款開源模型"讓您全盤接收並讓它為您所用"。方向與明略科技一致:模型競爭的焦點正在從"誰更大"轉向"誰更快、誰更省、誰更專"。
端側基礎設施:從模型到硬件的完整閉環
黃仁勳的RTX Spark重新定義了PC,但端側AI的基礎設施不只是芯片和模型,還包括智能體之間如何協作、綫下場景的數據如何被採集和理解。
明略科技近期開源的Octo通過連接人、數字分身Agent、Runtime Agent與各類外部工具,讓Agent從孤立的個人效率助手走向可協同、可編排的組織級數字勞動力。Octo的MoA(Mixture of Agents)協作邏輯不只是配合,也有對抗——不同Agent之間互相驗證、互相挑戰,最終産出比單個模型更可靠的結果。
黃仁勳在演講中將CUDA-X庫開放為智能體的技能工具時說:"這些庫提供給智能體後,它們的使用效率甚至超越了人類。"Octo的思路類似——不是讓單一模型包打天下,而是讓一組專精的Agent協同作戰。
在硬件端,明略科技5月13日推出的Octic,定位"隨時助攻的會議知己"。區別於傳統錄音筆"會後生成紀要"的邏輯,Octic把AI輔助前置到會中場景——開會時,Agent實時判斷對方陳述的事實是否與公開數據一致、邏輯是否自洽,並即時提醒用戶。基於分層記憶架構,Octic持續積累用戶數據,構建專屬Personal AI。
這就形成了一個完整的端側AI産品矩陣:Mano-P負責端側智能體的理解和決策,Cider負責推理加速釋放硬件算力,Octo負責多Agent協作和組織級編排,Octic負責綫下場景的數據採集入口。四個産品——模型、引擎、協作網絡、硬件——全部開源或已發佈,構成了從"端側模型"到"端側基礎設施"的完整閉環。
從"看懂數據"到"拿到結果"
黃仁勳在演講中說,在智能體時代,"Token已經成為了盈利和收入的單位"。當AI的價值用Token來計量時,每一次端側推理省下的雲端調用,都是實實在在的成本優勢。
明略科技創始人、CEO兼CTO吳明輝早在2025年就判斷:"未來通用模型可能會變成'收電費'的公共基礎設施,專業小模型會解決各個細分領域問題。"如今,這個判斷正在被Mano-P、Cider、Octo和Octic一一落地。
2025年全年,明略科技實現營收14.26億元,經調整淨利潤實現扭虧為盈。Agentic Services業務收入突破1億元,新增大客戶中超過30%來自這一方向。吳明輝在2026年3月說:"2025年,明略科技完成了一次關鍵轉型——從幫助客戶'看懂數據',到幫助客戶'拿到結果'。"
當黃仁勳站在台北的舞台上說"過去我們啓動應用程序進行點擊和輸入,現在只需向AI解釋我們的意圖和需求"時,明略科技的端側智能體Mano-P已經在Mac上做到了這件事——看懂屏幕、理解意圖、操作軟件、數據不出域。
端側AI的時代正在到來。誰手裡有經過驗證的端側模型和推理引擎,誰掌握著從模型到硬件的完整産品矩陣,誰就擁有在這個新賽道上的起跑優勢。
内容來源:有連雲
財華網所刊載內容之知識產權為財華網及相關權利人專屬所有或持有。未經許可,禁止進行轉載、摘編、複製及建立鏡像等任何使用。
如有意願轉載,請發郵件至 content@finet.com.hk,獲得書面確認及授權後,方可轉載。
國内領先的智能金融信息引擎