請輸入關鍵字:

熱門搜尋:

AI知道「你在看哪裡」:明略科技明敬PRE-MAP模型,破解你的注意力密碼

 
日期: 2025年7月23日 下午6:29

AI不再只「看得見」,它開始「看得懂」——不僅懂你在視頻中注視的具體位置,更懂你是誰,並據此做出精準預測。這正是明略科技的研究成果《PRE-MAP: Personalized Reinforced Eye-tracking Multimodal LLM for High-Resolution Multi-Attribute Point Prediction》的核心突破,該論文近日已被全球多媒體技術領域的旗艦會議ACM MM 2025正式接收,得到了廣泛關注。

這項創新成果的目標看似單一:預測用戶在廣告視頻中的注視點。但其背後的技術矩陣堪稱「多模態AI的頂配組合」:大語言模型(LLM)、多模態學習、個體屬性建模、眼動數據採集、高分辨率圖像處理與強化學習。

image

圖片來源:明略科技

當它被置於「注意力即價值」的廣告營銷場景中時,一場真正的變革已悄然開啓。

個性化注意力預測:廣告測量的下一張王牌

廣告最看重的,是「受眾是否看到了重要信息」,而不是廣告主「在廣告裡放置了什麼信息」。但這個「看」,卻沒有被真正精確地量化過。

過去,無論是焦點小組、A/B Test,還是後期行為追蹤,都屬於事後統計,是對有限樣本的效果復盤。而明略科技的最新研究則帶來了新的解題方法:用AI模擬用戶的真實注視行為,提前預判人對廣告内容的注意力分佈,並實現個性化差異呈現。

它是如何做到的?明略科技以兩項基礎創新為支點:一個是超大規模的真實眼動數據集SPA-ADV;另一個是創新的注視點預測模型明敬PRE-MAP。

SPA-ADV數據集涵蓋了4500多名不同年齡段、性別的真實用戶對486個精選廣告視頻的細致注視記錄,包括眼球運動軌迹以及精確的注視點坐標等真實視覺行為,為個性化顯著性建模提供了高質量的基準數據支持。

image

圖片來源:明略科技

這也為明敬PRE-MAP的「個性化預測」能力提供了豐富的「數據燃油」,使它不僅能夠預測「人會看哪裡」,更能進一步預判「一個30歲女性可能會在視頻第3秒看向畫面的哪個區域」。

這標誌著廣告評估領域,正迎來從「群體平均」到「個體洞察」的結構性躍遷。

大模型的新任務:從生成到認知推理

與當前大熱的文生圖、視頻生成不同,明敬PRE-MAP大模型的應用不是為了生成内容,而是為了「感知内容,並推理人類視覺行為」。這正是多模態大模型邁向下一階段的關鍵能力:理解人類是如何感知世界的,從而更好地發揮人機協同的價值。

明敬PRE-MAP背後的建模邏輯很清晰:將用戶屬性(如年齡、性別)通過Prompt嵌入模型,配合高分辨率廣告視頻段,輸出用戶在該場景中可能産生的注視點坐標,並生成可視化熱圖。

從技術實現來看,明敬PRE-MAP抛棄了傳統的低分辨率特徵圖上採樣重建方法,採用了「點式預測」機制,即直接輸出一幀圖像中用戶可能注視的若幹個點。比起「模糊的熱區」,這種機制可以更真實、更精準地還原人眼的真實運動軌迹。

image

圖片來源:明略科技

論文的實驗結果充分驗證了這一點。與SUM、Transalnet等多個主流模型相比,明敬PRE-MAP在各項評估指標上均表現出顯著優勢,其預測的注視點分佈精準,邊緣與人眼的真實注視位置高度吻合。

隨著模型持續演進,未來的明敬PRE-MAP甚至可能明確指出:「該用戶的第一注視點是左上角人物的眼睛,第二注視點是右下角的品牌Logo,第三是中央字幕。」

這種高精度點式輸出,對廣告主而言價值巨大:它不只是「知道你是否在看」,而是「知道你先看哪、後看哪、忽略了什麼」,並據此優化廣告内容,抓住更多注意力。

技術解構:精準和個性化的雙重突破

明敬PRE-MAP模型的技術核心包括兩部分,分別解決了「個性化預測」「精準定位」的技術難題。

一方面,模型通過多屬性點式注意力建模進一步增強預測位置的精度,讓大模型更容易精確定位不同屬性人們的注意力焦點;另一方面,模型通過C-GRPO機制讓預測結果更容易被清晰呈現:

● 多屬性點式注意力建模(Multi-Attribute Point-Based Attention):基於多模態大模型(MLLMs),融合用戶屬性(如性別、年齡)與視頻語義内容,引導模型在高分辨率視頻幀上直接預測個性化注視點,提升預測的針對性與分辨率保真度。

● Consistency Group Relative Policy Optimization(C-GRPO):一種基於強化學習的優化機制,通過對預測點的空間一致性與格式規範進行策略約束,進一步增強個性化注視點預測的可控性與精度。

image

圖片來源:明略科技

廣告之外的更大圖景:把「人」的認知反饋嵌入AI係統

明敬PRE-MAP的研究無疑是廣告測量領域的一劑強心針,但它背後的技術邏輯價值遠不止於此。它提供了一套新的思路——AI係統應當學會感知、理解並模擬人類的主觀認知反饋,並將其融入生成與推理中。

這對於AI Agent、推薦係統、遊戲設計、教育内容編排等不同場景同樣具有啓發意義。例如:

教育視頻如何根據不同年齡段學生的注意力模式優化鏡頭?

遊戲中的視覺引導如何為不同玩家群體進行個性化設計?

短視頻封面生成係統能否優先考慮不同用戶的視覺興趣點?

明敬PRE-MAP所構建的高分辨率注視預測 + 多模態大模型建模 + 可控輸出機制,為這些問題提供了新的啓示。

長遠來看,對包括廣告在内的廣泛行業而言,它將使「創意」成為一個更可量化、可測試、可優化的技術問題。對AI大模型的發展而言,它是將「人類感知」嵌入大模型的前瞻性嘗試。理想的未來圖景中,AI能夠理解人類的需求、意圖和情感,並提供相應的支持與解決方案,人類也能更好地理解AI的内容生成與決策過程,從而建立更加和諧有效的人機關係。

内容來源:有連雲

財華網所刊載內容之知識產權為財華網及相關權利人專屬所有或持有。未經許可,禁止進行轉載、摘編、複製及建立鏡像等任何使用。

如有意願轉載,請發郵件至 content@finet.com.hk,獲得書面確認及授權後,方可轉載。

下載APP 下載財華財經APP,把握投資先機
更多精彩内容,請點擊: 財華網(https://www.finet.hk/) 財華智庫網(https://www.finet.com.cn) 現代電視FINTV(http://www.fintv.hk)

有連雲

國内領先的智能金融信息引擎

視頻

快訊

16:20
【異動股】港股跌幅榜前十,中國創意控股(08368.HK)跌32.00%,交大慧谷(08205.HK)跌23.26%
16:20
【異動股】港股漲幅榜前十,理士國際(00842.HK)漲75.00%,榮晖控股(08213.HK)漲42.29%
13:30
【異動股】港股跌幅榜前十,中國創意控股(08368.HK)跌31.00%,飛道旅遊科技(08069.HK)跌29.63%
13:30
【異動股】港股漲幅榜前十,理士國際(00842.HK)漲66.07%,高科橋(09963.HK)漲28.57%
09:45
【異動股】港股跌幅榜前十,傲迪瑪汽車(08418.HK)跌9.45%,惠生工程(02236.HK)跌9.09%
09:45
【異動股】港股漲幅榜前十,理士國際(00842.HK)漲46.43%,從玉智農(00875.HK)漲13.73%
13:30
【異動股】港股跌幅榜前十,中國創意控股(08368.HK)跌48.42%,XI二南三星-U(09347.HK)跌26.00%
13:30
【異動股】港股漲幅榜前十,普星能量(00090.HK)漲38.30%,星太鏈集團(00399.HK)漲35.24%
19:40
【現場直擊】中國通信服務(00552.HK):AI拉動的相關合同總金額同增逾25%
17:32
香港證監會:無紙證券市場制度預計於2026年11月實施