請輸入關鍵字：

熱門搜尋：

久日新材 HTSC 果纳半导体 IPO 国泰航空零跑汽车

OpenAI推出名為MLE-bench的新基準，用於評估AI代理開發機器學習解決方案的能力

日期： 2024年10月12日下午5:42

PANews 10月12日消息，據The Decoder報道，OpenAI推出了名為MLE-bench的新基準，旨在評估AI代理在機器學習解決方案開發中的表現。該基準涵蓋75項Kaggle競賽，重點評估當前機器學習開發的挑戰性任務，並將AI結果與人類表現進行比較。初步測試中，o1-preview模型與AIDE框架結合表現最佳，在16.9%的競賽中獲得銅牌，超過了Anthropic的Claude 3.5 Sonnet。通過增加嘗試次數，o1-preview的成功率翻倍至34.1%。OpenAI認為，MLE-bench有助於評估核心ML工程技能，盡管它並未涵蓋所有AI研究領域。

内容來源：PANews

財華網所刊載內容之知識產權為財華網及相關權利人專屬所有或持有。未經許可，禁止進行轉載、摘編、複製及建立鏡像等任何使用。

如有意願轉載，請發郵件至 content@finet.com.hk，獲得書面確認及授權後，方可轉載。

更多精彩内容，請點擊：財華網(https://www.finet.hk/) 財華智庫網(https://www.finet.com.cn) 現代電視FINTV(http://www.fintv.hk)

上一篇新聞

OKX將上綫X(X empire)進行現貨交易，並為X提供上市前期貨

下一篇新聞

安全公司：Python軟件包索引中發現能竊取加密貨幣的惡意軟件

相關文章

10月12日: OKX將上綫X(X empire)進行現貨交易，並為X提供上市前期貨
10月12日: 律所Pomerantz對Coinbase Global提起集體訴訟
10月12日: Murad 4個月前以9.8萬美元購入的1025萬枚SPX已升值至789萬美元
10月12日: Upbit使韓國交易所開啓「鱿魚遊戲」？遭壟斷調查，佔數字銀行K Bank存款20%
10月12日: 鏈上風險投資平台Fission Labs完成160萬美元的Pre-Seed輪融資
10月12日: 數讀崛起中的Sui生態：交易筆數短時突破1億，DeFi激增的背後社交和遊戲才是底色？
10月12日: ApeCoin DAO社區擬解散四個非必要工作組的提案正在投票
10月12日: 某地址3小時前將59.56億枚PEPE兌換為754,943枚SPX
10月12日: 神魚借助Arkham找回舊合約地址滯留資金，感歎行業進步
10月12日: 上海人工智能生態基金正式發佈，基金規模100億元

視頻

南方東英與OSL集團簽署合作備忘錄

2026年6月3日下午6:17

【今日IPO】普祥健康二度冲刺港交所主板上市

2026年5月26日下午4:04

富途2026年第一季度總營收為59億港元

2026年5月28日下午6:12

中環甲級寫字樓4月份租金按月上升1.2%

2026年5月22日下午6:03

【今日IPO】观安信息转战港股，数据安全排名第一

2026年5月26日下午4:03

快訊

更多

17:39: 證監會：完善私募基金領域"N＋X"規則體系加強分級分類監管、穿透式監管
17:32: 國辦：不得借助私募基金違規舉債化債、處置問題企業防止形成新的風險點
17:22: 國辦：要強化源頭防控優化私募基金登記備案規則
17:19: 香港證監會與香港金管局就修訂《結算規則》下場外衍生工具交易規定發表聯合諮詢總結
17:11: 【盈喜】中國投融資(01226.HK)料年度扭虧為盈淨溢利1.25億至1.5億港元
16:58: 壁仞科技(06082.HK)就建議實施H股全流通向中國證監會備案
16:52: 【盈警】寶光實業(00084.HK)料年度股東應佔虧損收窄至不多於7000萬港元
16:45: 復宏漢霖(02696.HK)HLX17的國際多中心1期臨床研究完成美國首例患者給藥
16:38: 吉利汽車(00175.HK)：安聰慧獲任執行董事
16:30: 歌爾股份：暫未涉及AIPC方面的業務