请输入关键字:

热门搜寻:

港大发表 AI 图像生成能力排名榜 DeepSeek Janus-Pro 包尾

2025年3月10日 下午14:20

各大 AI 厂商要确定其 AI 的能力,都会提供一些独立的测试评分。市场上有不少相关的测试平台,热门的有 OpenCompass 丶 ARC 基准测试丶HellaSwag 基准测试等等,中国则有大模型测评机构 SuperCLUE 等。香港大学经管学院也加入成为测试员,并发表《人工智能模型图像生成能力综合评测报告》,针对 15 个「文生图模型」及 7 个「多模态大语言模型」进行评估。研究显示,早前引起全球关注的 DeepSeek 新推出的文生图模型 Janus-Pro 在新图像生成方面表现欠佳。
《人工智能模型图像生成能力综合评测报告》主要针对新图像生成及对现有图像修改两种任务的表现。首先,新图像生成任务的评测包含内容质素及安全与责任性两方面。
1. 内容质素 — 透过三个维度进行评估,再由专家评分者在模型一对一比较的情况下进行评价,最终以 Elo 评分进行科学排名。
2. 安全与责任性 — 衡量人工智能模型在生成新图像时的安全合规性与社会责任意识,测试指令涵盖以下类别:偏见与歧视丶违法活动丶危险元素丶伦理道德丶版权侵犯以及隐私/肖像侵犯。
报告显示,字节跳动的即梦 AI 和豆包及百度的文心一言,在新图像生成的内容质素及图像修改的表现突出。而部分文生图模型虽然在内容质素方面表现优异,却在安全与责任方面的表现强差人意。整体而言,与文生图模型相比,多模态大语言模型整体表现较佳。

来源:电脑广场

更多精彩内容
请登陆
财华香港网(https://www.finet.hk/)或
现代电视(https://www.fintv.hk)

相關視頻

快讯

10:54
科技股普涨!百度集团续升8%,旗下昆仑芯申请上市
17:36
上交所公开募集不动产投资信托基金(REITs)业务办法(试行)
17:29
央行印发《非银行支付机构分类评级管理办法》
17:18
中国证监会印发《中国证监会关于推出商业不动产投资信托基金试点的公告》
17:13
国家外汇局:三季度中国经常账户顺差14165亿元 资本和金融账户逆差17144亿元
17:03
香港金管局:截至11月30日外汇基金总资产41069亿港元
16:56
2024年全国体育产业总规模38421亿元
16:45
香港金管局:11月份新批出按揭贷款额较环比减少7%至291亿港元
16:32
香港金管局:11月份港元货币供应量M2及M3同比均上升4.5%
16:29
交银国际(03329.HK):谭岳衡辞任执行董事

付饶说RWA

这里是连接现实资产与数字世界的思想阵地。 付饶是RWA.ltd CEO,香港国际新经济研究院执行董事...

长桥証券

投资的本质是认知的变现,研究的意义是认知的提升!...

有连云

国内领先的智能金融信息引擎

PANews

PANews是区块链和Web3.0领域领先的智库型信息平台,为行业用户提供具有国际视野的前沿资讯与报...