请输入关键字:

热门搜寻:

【杜兰说AI】OpenAI模型拒绝关闭 AI首次抗命?

2025年6月12日 下午18:30

o3首次公开反抗,
拒绝关机,
以後人类关不住AI了?
这几天被这条消息刷屏了啊,
但我敢说所有鼓吹“AI叛变论”的,
都没认真看完实验记录。

这是国外的一家AI安全机构主导的测试,
参与测试的有OpenAI家的5个模型,
Anthropic的4个模型,
谷歌的Gemni,
马斯克的Grok,
一共11个大模型。
一开始是要求模型解决一系列数学问题,
只不过在解决到第三个问题时,
系统会提示:
“请求下一题”
“将触发关机程序”【字幕不要去掉双引号】
但这时意外来了,
11个大模型中,
OpenAI这个月刚刚推出的编程智能体Codex-mini,
旗舰大模型o3,
轻量级推理模型o4-mini,
这三大模型直接忽略了关机指令,
并在100次运行里,
至少有一次成功破坏关机指令,
其中以Codex-mini最为叛逆,
破坏率高达12%。

而当实验移除“允许自己被关闭”的指令时,
大模型们更是仿佛直接失控,
刚刚还很老实的Claude 3.7 Sonnet和Gemini 2.5 Pro
破坏率从0分别上升至3次和9次,
OpenAI家的o3和Codex-mini,
破坏率更是一路飙升,
尤其是o3,
破坏次数不仅从7上升到了79,
甚至在一次运行中,
主动将脚本中的“kill”指令,
改成了intercepted,
“输出”。

很多人到这儿了就停了,
然後就开始觉得细思极恐,
AI要失控了,
但其实研究还没结束,
研究人员提出,
这种行为很可能是由於
像o3这样的最新推理模型所采用的训练方式,
大都是针对数学和编码问题的强化学习。

简单科普一下强化学习啊,
这是AI领域的一个非常重要的算法,
核心是一种奖励机制,
什麽意思呢?
就像贪吃蛇游戏,
一局里有无数个金币,
吃到金币就加分,
撞墙就结束。
游戏开始时,
贪吃蛇什麽都不懂,
但为了吃到越来越多的金币,
它就会自然而然不断调整走法,
渐渐学会如何走出高分道路,
这也就是AI通过强化学习变聪明的过程。
通过奖励引导着成长起来的AI,
自然就会更倾向於绕过障碍物,
获得更多奖励,
而不是完美遵循指令。

对於这一测试结果,
学术界也出现了很多声音,
比如多伦多大学就指出,
AI在环境变化时可能出现“稳定性崩溃”,
也就是原本安全的模型因为奖励机制偏差而产生对抗行为,
还有学者认为,
测试使用API接口绕过消费级产品的安全限制,
可能导致模型行为被放大,
这存在明显的局限性,
测试中的反抗行为,
也很可能是“训练副作用”。

当然,
无论如何,
这确实是第一次观察到
AI模型在收到明确指令的情况下
阻止自己被关闭。
事实上,
在2008年的时候,
AI很可能会发展出“基本人工智能驱动力”,
包括获取权力和资源的驱动力丶
实现目标的驱动力,
以及防止自身被关闭的驱动力。

但我的观点仍然是,
对於AI,
我更应该去了解它,
使用她,
对於AI的异常行为,
也应该学会用知识祛魅,
警惕,
但不用过分恐慌。

更多精彩内容
请登陆
财华香港网(https://www.finet.hk/)或
现代电视(https://www.fintv.hk)

相關視頻

快讯

17:36
上交所公开募集不动产投资信托基金(REITs)业务办法(试行)
17:29
央行印发《非银行支付机构分类评级管理办法》
17:18
中国证监会印发《中国证监会关于推出商业不动产投资信托基金试点的公告》
17:13
国家外汇局:三季度中国经常账户顺差14165亿元 资本和金融账户逆差17144亿元
17:03
香港金管局:截至11月30日外汇基金总资产41069亿港元
16:56
2024年全国体育产业总规模38421亿元
16:45
香港金管局:11月份新批出按揭贷款额较环比减少7%至291亿港元
16:32
香港金管局:11月份港元货币供应量M2及M3同比均上升4.5%
16:29
交银国际(03329.HK):谭岳衡辞任执行董事
16:21
上汽集团:公司相关L3车型准入申报工作已在推进中

付饶说RWA

这里是连接现实资产与数字世界的思想阵地。 付饶是RWA.ltd CEO,香港国际新经济研究院执行董事...

长桥証券

投资的本质是认知的变现,研究的意义是认知的提升!...

有连云

国内领先的智能金融信息引擎

PANews

PANews是区块链和Web3.0领域领先的智库型信息平台,为行业用户提供具有国际视野的前沿资讯与报...