
PANews 10月12日消息,據The Decoder報道,OpenAI推出了名為MLE-bench的新基準,旨在評估AI代理在機器學習解決方案開發中的表現。該基準涵蓋75項Kaggle競賽,重點評估當前機器學習開發的挑戰性任務,並將AI結果與人類表現進行比較。初步測試中,o1-preview模型與AIDE框架結合表現最佳,在16.9%的競賽中獲得銅牌,超過了Anthropic的Claude 3.5 Sonnet。通過增加嘗試次數,o1-preview的成功率翻倍至34.1%。OpenAI認為,MLE-bench有助於評估核心ML工程技能,盡管它並未涵蓋所有AI研究領域。
内容來源:PANews
財華網所刊載內容之知識產權為財華網及相關權利人專屬所有或持有。未經許可,禁止進行轉載、摘編、複製及建立鏡像等任何使用。
如有意願轉載,請發郵件至 content@finet.com.hk,獲得書面確認及授權後,方可轉載。
PANews是區塊鏈和Web3.0領域領先的智庫型信息平台,為行業用戶提供具有國際視野的前沿資訊與報告。PANews優質多元的内容以圖文、音頻、視頻等形式在全網多渠道覆蓋,包含推特、微博、抖音、視頻號等主流平台,旨在成為用戶的Web3信息官。PANews同時還是騰訊新聞的内容合作夥伴,内容被福佈斯、財新等媒體引用,獲得騰訊新聞、今日頭條、澎湃新聞等頒發的相關獎項。PANews的兩位聯合創始人均為福