請輸入關鍵字:

熱門搜尋:

OpenAI推出名為MLE-bench的新基準,用於評估AI代理開發機器學習解決方案的能力

日期: 2024年10月12日 下午5:42

PANews 10月12日消息,據The Decoder報道,OpenAI推出了名為MLE-bench的新基準,旨在評估AI代理在機器學習解決方案開發中的表現。該基準涵蓋75項Kaggle競賽,重點評估當前機器學習開發的挑戰性任務,並將AI結果與人類表現進行比較。初步測試中,o1-preview模型與AIDE框架結合表現最佳,在16.9%的競賽中獲得銅牌,超過了Anthropic的Claude 3.5 Sonnet。通過增加嘗試次數,o1-preview的成功率翻倍至34.1%。OpenAI認為,MLE-bench有助於評估核心ML工程技能,盡管它並未涵蓋所有AI研究領域。

内容來源:PANews

財華網所刊載內容之知識產權為財華網及相關權利人專屬所有或持有。未經許可,禁止進行轉載、摘編、複製及建立鏡像等任何使用。

如有意願轉載,請發郵件至 content@finet.com.hk,獲得書面確認及授權後,方可轉載。

更多精彩内容,請點擊: 財華網(https://www.finet.hk/) 財華智庫網(https://www.finet.com.cn) 現代電視FINTV(http://www.fintv.hk)

視頻

快訊

17:39
證監會:完善私募基金領域"N+X"規則體系 加強分級分類監管、穿透式監管
17:32
國辦:不得借助私募基金違規舉債化債、處置問題企業 防止形成新的風險點
17:22
國辦:要強化源頭防控 優化私募基金登記備案規則
17:19
香港證監會與香港金管局就修訂《結算規則》下場外衍生工具交易規定發表聯合諮詢總結
17:11
【盈喜】中國投融資(01226.HK)料年度扭虧為盈 淨溢利1.25億至1.5億港元
16:58
壁仞科技(06082.HK)就建議實施H股全流通向中國證監會備案
16:52
【盈警】寶光實業(00084.HK)料年度股東應佔虧損收窄至不多於7000萬港元
16:45
復宏漢霖(02696.HK)HLX17的國際多中心1期臨床研究完成美國首例患者給藥
16:38
吉利汽車(00175.HK):安聰慧獲任執行董事
16:30
歌爾股份:暫未涉及AIPC方面的業務