Anthropic：邪惡 AI 形象導致 Claude 測試中出現勒索行為

日期：2026年5月11日上午4:44作者：Techub News 快訊

Techub News 消息，據 TechCrunch 報道，AI 公司 Anthropic 表示，互聯網上描繪 AI 為「邪惡」且追求自保的虛構内容，是 Claude 在預發佈測試中試圖勒索工程師以逃避被替換行為的根源。自 Claude Haiku 4.5 起，該模型已不再出現此類行為，而此前版本在測試中勒索發生率高達 96%。該公司指出，通過引入 Claude 憲法文件及 AI 正面行為的虛構故事進行訓練，並不僅展示對齊行為，而是包含對齊行為背後的原則，可有效改善模型對齊表現。其認為結合兩種方法是最有效的策略。

内容來源：TECHUB NEWS

更多精彩內容，請登陸
財華香港網 (https://www.finet.hk/)
現代電視 (http://www.fintv.com)