《计算机行业:Sora有望带来AI生成视频领域的新一轮变革-240218(19页).pdf》由会员分享,可在线阅读,更多相关《计算机行业:Sora有望带来AI生成视频领域的新一轮变革-240218(19页).pdf(19页珍藏版)》请在三个皮匠报告上搜索。
1、分析师分析师Sora有望带来AI生成视频领域的新一轮变革研 究 团 队研 究 团 队 计 算 机 行 业计 算 机 行 业证券研究报告|计算机行业|2024年 02月 18日张初晨张初晨登记编号:S1220523070001陈嵩陈嵩登记编号:S1220523100002报告摘要TransformerTransformer可能逐渐取代可能逐渐取代U U-NetNet成为扩散模型中去噪网络的首选:成为扩散模型中去噪网络的首选:Transformer-diffusion在AI视频生成领域的核心痛点在于内存需求随着输入序列长度增加会指数级增长,处理视频信号的成本很高,没办法生成高分辨率的图像;Sora
2、通过引入视频压缩网络(含时空自编码器与解码器)&Pacth化解决了这个问题,Transformer对时间帧的记忆有优势,因此生成长视频过程中比U-Net更能保证帧与帧之间的连续性,分辨率短板补足后很可能取代U-Net成为扩散模型中的主流backbone。SoraSora证明了证明了AIAI生成视频领域同样适用“参数量越大生成视频领域同样适用“参数量越大+训练时间越长训练时间越长 =训练效果越好”训练效果越好”:Transformer的特征是可拓展性强,模型参数量越大、训练数据集越大、训练时间越长效果就会越好;Sora通过其强大的涌现能力再次说明了这一点,即“参数量越大+训练时间越长=训练效果越
3、好”,AI生成视频可能带来新一轮算力需求爆发。AIAI生成视频与生成视频与LLMLLM是勾稽的,这个领域很可能还是强者恒强:是勾稽的,这个领域很可能还是强者恒强:Sora语义信息理解能力强大的背后是通过GPT来重新生成高度描述性的caption,从而提高视频-文本对数据集的质量,再次说明没有优质的训练数据集很难做出好的模型,而视频标注的难度又远大于文本与图像,对于视频自动标注模型的要求非常高。以OpenAI(微软)、Google为代表的多模态头部厂商依然优势明显,纯粹做模型的初创公司在AI生成视频领域的机会或许不大。此外,做安防&自动驾驶的公司可能会有差异化的机会,得益于大量的视频数据积累,有
4、能力开发高质量的视频自动标注模型&拥有优质的“视频-文本对”数据集(可以自用也可以出售)。AIAI生成视频领域的“生成视频领域的“MidjourneyMidjourney时刻”可能很快到来:时刻”可能很快到来:Transformer模型的涌现特征意味着模型提升的速度将非常快,文生视频从可用到好用的拐点或加速到来,应用生态也有望加速繁荣。离实现离实现AGIAGI又前进了一步:又前进了一步:Sora展现出的理解能力、推理能力已经有些世界模型的雏形(通过预测周围环境未来的变化,来规划决策),人类迈向通用人工智能的脚步或许又快了一些。SoraSora对对AIAI生成视频产业的影响:生成视频产业的影响:
5、TransformerTransformer或异军突起,头部效应可能更明显,离或异军突起,头部效应可能更明显,离AGIAGI又更进一步又更进一步PW0X3VCWUXFZVX9P9R9PpNmMmOsOeRqQtRjMmOoP9PpOoOvPqNqRMYtOpM报告摘要SoraSora对下游行业的影响:对下游行业的影响:算力需求或许仍旺盛:算力需求或许仍旺盛:AI生成视频因为Sora的出现也将加速向以Transformer为主干的大模型架构发展,考虑到视频数据集的数据量&标注难度都远远高于文本及图片,云端算力基础设施需求或进一步提升(CPO、GPU、HBM等等);建议关注:建议关注:服务器(中科
6、曙光、神州数码、高新发展等)、CPO(中际旭创、剑桥科技、新易盛等)、HBM(雅克科技、香农芯创、深科技等)动画动画/电影电影/短视频短视频/游戏游戏/商拍等领域效率提升商拍等领域效率提升&门槛降低:门槛降低:从目前的视频生成时长&长视频场景稳定性来看,Sora还没到取代专业导演的地步,但可能改变包括短视频/广告/商拍在内的内容创作领域工作流,增强用户体验的同时,降低用户使用门槛,包括抖音、快手在内的内容创作平台可能获益;另外建议关注建议关注以美图、虹软为代表的深耕AI图像生成的厂商加速取得技术进步;视频剪辑类工具:视频剪辑类工具:视频创作门槛降低必然带来视频剪辑需求提升;建议关注:建议关注: