Techub News 消息,据 cryptobriefing.com 报道,OpenAI 推出 LifeSciBench 基准测试工具,用于评估 AI 模型在真实生命科学研究工作流程中的表现。该基准包含 750 个由 173 名博士级专家编写的任务,涵盖证据处理、实验设计、科学推理等七个研究领域,并配备 1,062 个包含图表、PDF 和数据集的附属文件。 该评估体系包含 19,020 条独立评估标准,79% 的任务需要平均四步多步推理。LifeSciBench 主要用于测试 OpenAI 今年 4 月发布的专业生命科学模型 GPT-Rosalind,测试显示该模型在总体得分上领先于 GPT-5.5、Grok 4.3 和 Gemini 3.1 Pro。该基准与 MedChemBench、GeneBench 等共同构成专业科学评估生态系统。
内容来源:TECHUB NEWS
财华网所刊载内容之知识产权为财华网及相关权利人专属所有或持有。未经许可,禁止进行转载、摘编、复制及建立镜像等任何使用。
如有意愿转载,请发邮件至 content@finet.com.hk,获得书面确认及授权后,方可转载。
香港领先,世界一流的科技媒体平台 在数字化时代,Web3技术的崛起为媒体行业注入了新的活力。作为香港领先的Web3媒体平台,Techub News凭借其专业的团队、丰富的资源和创新的业务模式,成为了行业内的佼佼者。Techub News,作为香港的科技媒体翘楚,致力于打造“香港领先,世界一流”的科技媒体和新媒体集群。Techub News平台提供最新、最快、最专业的Web3科技资讯,为用户呈现科技前沿的无限魅力。