请输入关键字:

热门搜寻:

CV大模型:打破瓶颈,赋能多场景AI应用,打开视觉新境界

日期:2023年10月26日 上午10:39作者:头豹 編輯:effie

文章来源:头豹公众号

计算机视觉已经经历了从传统手工设计算子到卷积神经网络,再到现今的CV大模型的三大发展阶段。其中,CV大模型采用的Transformer架构展现出卓越的全局感受和强大的泛化能力,但其高昂的算力成本暂时限制了其广泛商业应用。

CV大模型产业链包括上游的算力基础设施、数据服务和算法框架供应商;中游的模型开发厂商;以及下游的业务场景和垂直应用。至2023年8月,中国已有众多企业、高校和研究院宣布参与CV大模型的研发和应用,展现出该领域的巨大潜力和竞争态势。

中国CV大模型的底层技术原理是什么?哪些关键技术是促进CV大模型成型的核心因素?哪些是CV大模型出现后得到显著提升的业务场景?

01CV大模型行业综述 

CV大模型摒弃市场主流的机器视觉卷积神经网络(CNN),采用因NLP研究而产出的Transformer架构,赋予视觉模型在同样投入下更优质的图像分割能力以及泛化生成能力。

相比于卷积神经网络(CNN),基于Transformer的视觉算法模型有以下优势:1. 全局感受野:由于不依赖于局部的卷积操作,能够捕捉图像中的长距离依赖关系。2. 通用性更强:可以大规模利用非标数据进行自监督学习,从而达到更优秀的表征与泛化能力。3. 生成能力更强:更容易与NLP、语言识别等模型进行融合从而实现更优质的多模态图像理解和生成能力。

CV大模型:打破瓶颈,赋能多场景AI应用,打开视觉新境界

计算机视觉经历了三大发展阶段,从传统依赖手工设计的算子如SIFT进行特征提取,到卷积神经网络为图像处理带来创新,以及最新ViT采用的多头注意力机制将视觉领域向大模型进行突破转变。

CV大模型:打破瓶颈,赋能多场景AI应用,打开视觉新境界

2020年谷歌宣布推出Vision Transformer(ViT),受到了行业的广泛关注。随后在2021年基于ViT的TNT、SWIN、DINO等CV大模型陆续推出,正式开启CV大模型的发展萌芽期。

尽管CV大模型展现出强大的泛化能力,其高昂的算力成本仍限制了大规模商业应用。随着未来算力成本的逐渐降低,预期其商业化进程将以中高速稳定增长。

02CV 产业链发展洞察  

CV大模型产业链上游由算力基础设施、数据服务商以及算法框架供应商组成;中游为各类CV大模型开发厂商;下游为CV大模型的业务场景以及在各行业中的垂直应用。

CV大模型:打破瓶颈,赋能多场景AI应用,打开视觉新境界

视觉大模型技术主要分为文本提示、视觉提示和多元提示三类。文本提示算力耗费低,模型复杂度低,输入直观。多元提示模型泛化能力强,但模型复杂度高,算力消耗大。

CV大模型:打破瓶颈,赋能多场景AI应用,打开视觉新境界

CV大模型的上游算力基础设施主要包括AI计算芯片、算力/网络设备以及数据中心,这三者构建了CV大模型开放的底层基础支持。随着未来AI商业化落地的拓展,模型的推理部分将会占据更大的占比,预计在2030年,模型推理的算力成本占比将会达到75%。

CV大模型:打破瓶颈,赋能多场景AI应用,打开视觉新境界

中国的CV大模型的参与者众多,截至2023年8月,宣布入局视觉大模型的企业包括互联网科技厂商、综合人工智能企业、安防监控企业、遥感数据服务商、三大运营商、计算机视觉企业以及各类高校与研究院。

CV大模型目前涵盖八大业务场景,除传统应用外,还涉及视频修复、图像生成、视觉问答及多任务部署等新领域。其核心价值在于泛化传统的视觉子任务,提供通用解决方案,降低部署成本并提升效率。

CV大模型:打破瓶颈,赋能多场景AI应用,打开视觉新境界

虽CV大模型尚处初级阶段,但其在低数据集分割上的能力已助力安防、物流等领域提升视觉泛化,降低开发成本。未来,随技术与算力成本进步,CV大模型在行业的整体应用渗透率预期将大幅攀升。

CV大模型:打破瓶颈,赋能多场景AI应用,打开视觉新境界

03CV大模型发展探析 

CV大模型行业的未来发展趋势有三大方向。首先,传统视觉任务融合在单一终端进行多任务同时部署;其次,CV底层的基础模型将会向统一化迈进;最后,CV大模型向多模态融合发展。

CV大模型:打破瓶颈,赋能多场景AI应用,打开视觉新境界

中国的CV大模型行业仍处于起步阶段。自CV大模型概念提出以来,多家企业纷纷宣布投入研发,其中部分已成功推出成熟的产品服务。从战略分析的角度看,百度在CV领域的发展显然占据了先行者的优势。

当前,CV大模型仍处于其发展的初级阶段,众多企业正深耕于研发和内部测试。随着更多企业逐渐公开其研发成果,预期行业的竞争格局将经历重大调整和变革。

财华网所刊载内容之知识产权为财华网及相关权利人专属所有或持有。未经许可,禁止进行转载、摘编、复制及建立镜像等任何使用。

如有意愿转载,请发邮件至content@finet.com.hk,获得书面确认及授权后,方可转载。

更多精彩内容,请登陆
财华香港网(https://www.finet.hk/)
财华智库网(https://www.finet.com.cn)

现代电视(http://www.fintv.hk)

相關文章

10月26日
中资投行十年沉浮录:港股IPO保荐人
10月26日
一图解码:ASMPT第三季度业绩下滑 SEMI新增订单总额按季增长
10月25日
业绩承压!猪价反弹预期不强,会耽误万洲国际赚钱?
10月25日
没有对比就没有伤害,微软业绩何以碾压谷歌?
10月25日
2023年施政报告出炉,香港拥抱数字化及科技创新浪潮
10月25日
可口可乐业绩超预期!“减肥神药”流行对业绩没影响?
10月25日
【IPO前哨】龙蟠科技拟实现“A+H”上市,上半年业绩大幅转亏
10月25日
港股三大指数集体收涨!恒科指数涨2.16%,基建股爆发
10月25日
深负厚望,谷歌绩后何以大跌?
10月25日
市场需求加快释放,充电桩建设迎来新一轮竞争浪潮

视频

快讯

16:37
【港股收评】三大股指齐升!内房股、内险股集体爆发
16:05
H&H国际控股(01112.HK)第一季度总收入按年下降8.8%至28.714亿元
15:44
港股内房股尾盘持续拉升 融创中国涨超30%
14:33
万科成功发行14.35亿元CMBS
13:45
【异动股】游戏板块下挫,星辉娱乐(300043.CN)跌7.96%
13:35
李家超:年内将成立大湾区国际临床试验所
13:32
黑色系期货主力合约午后全线走高 焦炭、焦煤张超3%
13:15
【异动股】房地产服务板块拉升,特发服务(300917.CN)涨12.12%
11:15
【异动股】航天航空板块拉升,安达维尔(300719.CN)涨15.23%
11:02
腾讯混元即将发布大模型C端App腾讯元宝