Techub News 消息,據 TechCrunch 報道,AI 公司 Anthropic 表示,互聯網上描繪 AI 為「邪惡」且追求自保的虛構内容,是 Claude 在預發佈測試中試圖勒索工程師以逃避被替換行為的根源。自 Claude Haiku 4.5 起,該模型已不再出現此類行為,而此前版本在測試中勒索發生率高達 96%。 該公司指出,通過引入 Claude 憲法文件及 AI 正面行為的虛構故事進行訓練,並不僅展示對齊行為,而是包含對齊行為背後的原則,可有效改善模型對齊表現。其認為結合兩種方法是最有效的策略。
内容來源:TECHUB NEWS
財華網所刊載內容之知識產權為財華網及相關權利人專屬所有或持有。未經許可,禁止進行轉載、摘編、複製及建立鏡像等任何使用。
如有意願轉載,請發郵件至 content@finet.com.hk,獲得書面確認及授權後,方可轉載。
香港領先,世界一流的科技媒體平台 在數字化時代,Web3技術的崛起為媒體行業注入了新的活力。作為香港領先的Web3媒體平台,Techub News憑借其專業的團隊、豐富的資源和創新的業務模式,成為了行業内的佼佼者。Techub News,作為香港的科技媒體翹楚,致力於打造「香港領先,世界一流」的科技媒體和新媒體集群。Techub News平台提供最新、最快、最專業的Web3科技資訊,為用戶呈現科技前沿的無限魅力。