Techub News 消息,據 cryptobriefing.com 報道,OpenAI 推出 LifeSciBench 基準測試工具,用於評估 AI 模型在真實生命科學研究工作流程中的表現。該基準包含 750 個由 173 名博士級專家編寫的任務,涵蓋證據處理、實驗設計、科學推理等七個研究領域,並配備 1,062 個包含圖表、PDF 和數據集的附屬文件。該評估體系包含 19,020 條獨立評估標準,79% 的任務需要平均四步多步推理。LifeSciBench 主要用於測試 OpenAI 今年 4 月發布的專業生命科學模型 GPT-Rosalind,測試顯示該模型在總體得分上領先於 GPT-5.5、Grok 4.3 和 Gemini 3.1 Pro。該基準與 MedChemBench、GeneBench 等共同構成專業科學評估生態系統。
內容來源:TECHUB NEWS
財華網所刊載內容之知識產權為財華網及相關權利人專屬所有或持有。未經許可,禁止進行轉載、摘編、複製及建立鏡像等任何使用。
如有意願轉載,請發郵件至 content@finet.com.hk,獲得書面確認及授權後,方可轉載。