
PANews 10月12日消息,据The Decoder报道,OpenAI推出了名为MLE-bench的新基准,旨在评估AI代理在机器学习解决方案开发中的表现。该基准涵盖75项Kaggle竞赛,重点评估当前机器学习开发的挑战性任务,并将AI结果与人类表现进行比较。初步测试中,o1-preview模型与AIDE框架结合表现最佳,在16.9%的竞赛中获得铜牌,超过了Anthropic的Claude 3.5 Sonnet。通过增加尝试次数,o1-preview的成功率翻倍至34.1%。OpenAI认为,MLE-bench有助于评估核心ML工程技能,尽管它并未涵盖所有AI研究领域。
内容来源:PANews
财华网所刊载内容之知识产权为财华网及相关权利人专属所有或持有。未经许可,禁止进行转载、摘编、复制及建立镜像等任何使用。
如有意愿转载,请发邮件至 content@finet.com.hk,获得书面确认及授权后,方可转载。
PANews是区块链和Web3.0领域领先的智库型信息平台,为行业用户提供具有国际视野的前沿资讯与报告。PANews优质多元的内容以图文、音频、视频等形式在全网多渠道覆盖,包含推特、微博、抖音、视频号等主流平台,旨在成为用户的Web3信息官。PANews同时还是腾讯新闻的内容合作伙伴,内容被福布斯、财新等媒体引用,获得腾讯新闻、今日头条、澎湃新闻等颁发的相关奖项。PANews的两位联合创始人均为福