Techub News 消息,據 TechCrunch 報道,AI 公司 Anthropic 表示,互聯網上描繪 AI 為「邪惡」且追求自保的虛構内容,是 Claude 在預發佈測試中試圖勒索工程師以逃避被替換行為的根源。自 Claude Haiku 4.5 起,該模型已不再出現此類行為,而此前版本在測試中勒索發生率高達 96%。 該公司指出,通過引入 Claude 憲法文件及 AI 正面行為的虛構故事進行訓練,並不僅展示對齊行為,而是包含對齊行為背後的原則,可有效改善模型對齊表現。其認為結合兩種方法是最有效的策略。
内容來源:TECHUB NEWS
更多精彩內容,請登陸
財華香港網 (https://www.finet.hk/)
現代電視 (http://www.fintv.com)