請輸入關鍵字:

熱門搜尋:

【杜蘭說AI】OpenAI模型拒絕關閉 AI首次抗命?

2025年6月12日 下午18:30

o3首次公開反抗,
拒絕關機,
以後人類關不住AI了?
這幾天被這條消息刷屏了啊,
但我敢說所有鼓吹“AI叛變論”的,
都沒認真看完實驗記錄。

這是國外的一家AI安全機構主導的測試,
參與測試的有OpenAI家的5個模型,
Anthropic的4個模型,
谷歌的Gemni,
馬斯克的Grok,
一共11個大模型。
一開始是要求模型解決一系列數學問題,
只不過在解決到第三個問題時,
系統會提示:
“請求下一題”
“將觸發關機程序”【字幕不要去掉雙引號】
但這時意外來了,
11個大模型中,
OpenAI這個月剛剛推出的編程智能體Codex-mini,
旗艦大模型o3,
輕量級推理模型o4-mini,
這三大模型直接忽略了關機指令,
並在100次運行里,
至少有一次成功破壞關機指令,
其中以Codex-mini最為叛逆,
破壞率高達12%。

而當實驗移除“允許自己被關閉”的指令時,
大模型們更是仿佛直接失控,
剛剛還很老實的Claude 3.7 Sonnet和Gemini 2.5 Pro
破壞率從0分別上升至3次和9次,
OpenAI家的o3和Codex-mini,
破壞率更是一路飆升,
尤其是o3,
破壞次數不僅從7上升到了79,
甚至在一次運行中,
主動將腳本中的“kill”指令,
改成了intercepted,
“輸出”。

很多人到這兒了就停了,
然後就開始覺得細思極恐,
AI要失控了,
但其實研究還沒結束,
研究人員提出,
這種行為很可能是由於
像o3這樣的最新推理模型所采用的訓練方式,
大都是針對數學和編碼問題的強化學習。

簡單科普一下強化學習啊,
這是AI領域的一個非常重要的算法,
核心是一種獎勵機制,
什麽意思呢?
就像貪吃蛇遊戲,
一局里有無數個金幣,
吃到金幣就加分,
撞墻就結束。
遊戲開始時,
貪吃蛇什麽都不懂,
但為了吃到越來越多的金幣,
它就會自然而然不斷調整走法,
漸漸學會如何走出高分道路,
這也就是AI通過強化學習變聰明的過程。
通過獎勵引導著成長起來的AI,
自然就會更傾向於繞過障礙物,
獲得更多獎勵,
而不是完美遵循指令。

對於這一測試結果,
學術界也出現了很多聲音,
比如多倫多大學就指出,
AI在環境變化時可能出現“穩定性崩潰”,
也就是原本安全的模型因為獎勵機制偏差而產生對抗行為,
還有學者認為,
測試使用API接口繞過消費級產品的安全限制,
可能導致模型行為被放大,
這存在明顯的局限性,
測試中的反抗行為,
也很可能是“訓練副作用”。

當然,
無論如何,
這確實是第一次觀察到
AI模型在收到明確指令的情況下
阻止自己被關閉。
事實上,
在2008年的時候,
AI很可能會發展出“基本人工智能驅動力”,
包括獲取權力和資源的驅動力、
實現目標的驅動力,
以及防止自身被關閉的驅動力。

但我的觀點仍然是,
對於AI,
我更應該去了解它,
使用她,
對於AI的異常行為,
也應該學會用知識祛魅,
警惕,
但不用過分恐慌。

更多精彩內容
請登陸
財華香港網 (https://www.finet.hk/)或
現代電視 (https://www.fintv.hk)

相關視頻

快訊

14:33
韓國KOSPI指數收跌0.13%
14:31
日經225指數收跌0.21%
14:24
韶能股份:目前為無控股股東及無實際控制人的企業 正在推進再融資工作
14:15
【異動股】輪毂電機板塊下挫,兆豐股份(300695.CN)跌4.21%
14:13
九鼎新材:公司暫未開展電子級玻璃纖維布業務
14:08
飛亞達:正在有序推進收購長空齒輪股權的相關工作
14:06
冠轈控股(01872.HK)完成配售9019.5萬股 淨筹約3.84億港元
13:58
年内首只比特幣ETF上市,潘渡比特幣(02818.HK)上漲2.53%
13:55
商務部新聞發言人就美批準對華銷售英偉達H20芯片有關情況答記者問
13:50
中國電力(02380.HK)完成發行20億元人民幣中期票據