OpenAI推出名為MLE-bench的新基準，用於評估AI代理開發機器學習解決方案的能力

日期：2024年10月12日下午5:42

PANews 10月12日消息，據The Decoder報道，OpenAI推出了名為MLE-bench的新基準，旨在評估AI代理在機器學習解決方案開發中的表現。該基準涵蓋75項Kaggle競賽，重點評估當前機器學習開發的挑戰性任務，並將AI結果與人類表現進行比較。初步測試中，o1-preview模型與AIDE框架結合表現最佳，在16.9%的競賽中獲得銅牌，超過了Anthropic的Claude 3.5 Sonnet。通過增加嘗試次數，o1-preview的成功率翻倍至34.1%。OpenAI認為，MLE-bench有助於評估核心ML工程技能，盡管它並未涵蓋所有AI研究領域。

内容來源：PANews

更多精彩內容，請登陸
財華香港網 (https://www.finet.hk/)
現代電視 (http://www.fintv.com)