请输入关键字:

热门搜寻:

多模态视频生成技术突破,Web3如何吃到这口红利?

日期:2025年7月7日 下午1:05

作者:Haotian

除了 AI 本地化「下沉」之外,AI 赛道近段时间最大的变化莫过于:多模态视频生成的技术突破了,从原先支持纯文本生成视频演变成文本 + 图像 + 音频的全链路整合生成技术。

随便说几个技术突破案例,大家感受下:

1)字节跳动开源 EX-4D 框架:单目视频秒变自由视角 4D 内容,用户认可度达到 70.7%。也就是说,给一个普通视频,AI 能自动生成任意角度的观看效果,这在以前需要专业的 3D 建模团队才能搞定;

2)百度「绘想」平台:一张图生成 10 秒视频,宣称可以达到「电影级」质量。但是不是由营销包装夸大的成分,要等 8 月份的 Pro 版本更新后实际看效果;

3)Google DeepMind Veo:可以达到 4K 视频 + 环境音的同步生成。关键技术亮点是「同步」能力的达成,之前都是视频和音频两套系统拼接,要能做到真正语义层面的匹配需要克服较大的挑战,比如复杂场景下,要做到画面中走路动作和脚步声的对应音画同步问题;

4)抖音 ContentV:80 亿参数,2.3 秒生成 1080p 视频,成本 3.67 元 /5 秒。老实说这个成本控制的还可以,但目前生成质量看,遇到复杂的场景还差强人意;

为什么说这些案例在视频质量、生成成本、应用场景等方面的突破,价值和意义都很大?

1、技术价值突破方面,一个多模态视频生成的复杂度往往是指数级的,单帧图像生成大概 10^6 个像素点,视频要保证时序连贯性(至少 100 帧),再加上音频同步(每秒 10^4 个采样点),还要考虑 3D 空间一致性。

综合下来,技术复杂度可不低,原本都是一个超大模型硬刚所有任务,据说 Sora 烧了数万张 H100 才具备的视频生成能力。现在可以通过模块化分解 + 大模型分工协作来实现。比如,字节的 EX-4D 实际上是把复杂任务拆解成:深度估计模块、视角转换模块、时序插值模块、渲染优化模块等等。每个模块专门干一件事,然后通过协调机制配合。

2、成本缩减方面:背后其实推理架构本身的优化,包括分层生成策略,先低分辨率生成骨架再高分辨增强成像内容;缓存复用机制,就是相似场景的复用;动态资源分配,其实就是根据具体内容复杂度调整模型深度。

这样一套优化下来,才会有抖音 ContentV 的 3.67 元 /5 秒的结果。

3、应用冲击方面,传统视频制作是重资产游戏:设备、场地、演员、后期,一个 30 秒广告片几十万制作费很正常。现在 AI 把这套流程压缩到 Prompt+ 几分钟等待,而且能实现传统拍摄难以达到的视角和特效。

这样一来就把原本视频制作存在的技术和资金门槛变成了创意和审美,可能会促进整个创作者经济的再洗牌。

问题来了,说这么多 web2AI 技术需求端的变化,和 web3AI 有啥关系呢?

1、首先,算力需求结构的改变,以前 AI 拼算力规模,谁有更多同质化的 GPU 集群谁就赢,但多模态视频生成需求的是多样化的算力组合,对于分布式的闲置算力,以及各个分布式微调模型、算法、推理平台上都可能产生需求;

2、其次,数据标注的需求也会加强,生成一个专业级视频需要:精准的场景描述、参考图像、音频风格、摄像机运动轨迹、光照条件等等都会成为专业的数据标注新需求,用 web3 的激励方式,可以刺激摄影师、音效师、3D 艺术家等提供专业的数据素,用专业垂类的数据标注增强 AI 视频生成的能力;

3、最后,值得一说的是,当 AI 从过去集中式大规模资源调配逐渐趋于模块化协作本身就是一种对去中心化平台的新需求。届时算力、数据、模型、激励等共同组合形成自我强化的飞轮,继而带动 web3AI 和 web2AI 场景的大融合。

内容来源:PANews

财华网所刊载内容之知识产权为财华网及相关权利人专属所有或持有。未经许可,禁止进行转载、摘编、复制及建立镜像等任何使用。

如有意愿转载,请发邮件至content@finet.com.hk,获得书面确认及授权后,方可转载。

下载财华财经APP,把握投资先机
https://www.finet.com.cn/app

更多精彩内容,请点击:
财华网(https://www.finet.hk/)
财华智库网(https://www.finet.com.cn)
现代电视FINTV(http://www.fintv.hk)

相關文章

7月7日
无锡市委改革任务推进会:探索稳定币赋能外贸发展的实践路径
7月7日
迪拜RWA监管全解析:从牌照申请到沙盒落地,一文吃透虚拟资产合规路径
7月7日
以太坊现货ETF上周净流入2.19亿美元,持续八周净流入
7月7日
Coinbase的2025购物车:从交易所到金融操作系统的战略转型
7月7日
HashKey Group 完成对 Asseto 的战略投资 携手推动RWA代币化
7月7日
深圳:警惕以稳定币等名义实施非法集资
7月7日
融资周报 | 公开融资事件15起,The Open Platform完成2850万美元A轮融资,Ribbit Capital领投
7月7日
稳定币、跨境支付概念持续拉升,石基信息等近十股涨停
7月7日
Babylon拟于Q3上线比特币多质押测试网,主网拟于Q4上线
7月7日
许正宇:香港虚拟资产OTC交易托管服务拟由证监会负责主要监管

视频

快讯

17:28
吉利汽车(00175.HK)已购回合计6743.1万股
17:22
金地商置(00535.HK)1月合约销售总额约2.39亿元
17:18
中通快递-W(02057.HK)拟发售15亿美元的可换股优先票据
17:08
【盈喜】理文造纸(02314.HK)料年度盈利同比增长38%至47%
16:59
中通快递-W(02057.HK)料2025年收入总额同比增长约9.5%至12.9%
16:31
徐正宇:研究优化法律框架 推动债券代币化技术应用
16:22
千里科技:已正式提交L3级智能驾驶测试牌照申请
16:20
【异动股】港股跌幅榜前十,声扬集团(08163.HK)跌68.63%,高地股份(01676.HK)跌27.06%
16:20
【异动股】港股涨幅榜前十,浦江中国(01417.HK)涨57.77%,紫荆国际金融(08340.HK)涨48.94%
16:09
央行:2026年信贷市场着力支持扩大内需、科技创新及中小微企业等重点领域