《传媒行业3D:AI的下一个涌现-230912(45页).pdf》由会员分享,可在线阅读,更多相关《传媒行业3D:AI的下一个涌现-230912(45页).pdf(45页珍藏版)》请在三个皮匠报告上搜索。
1、分析师分析师杨晓峰杨晓峰登记编号:S1220522040001杨昊杨昊登记编号:S12205230700043D3D:AIAI的下一个涌现的下一个涌现传 媒 团 队传 媒 团 队 行 业 深 度 报 告行 业 深 度 报 告证券研究报告|传媒行业|2023年 9 月 1 2 日报告摘要一、一、文生文生2D2D复盘:复盘:“千万级数据和亿级数据千万级数据和亿级数据”是关键是关键我们认为亿级数据量将是我们认为亿级数据量将是3D3D出现涌现能力的一个重要突破节点。出现涌现能力的一个重要突破节点。在梳理了2D图像发展路径之后,我们发现有三个重要节点值得关注。1 1)领跑模型出现:)领跑模型出现:扩散模
2、型逐渐领先于GAN、自回归模型,成为2D生成模型中主流模型;2 2)首个千万级)首个千万级2D2D数据集出现:数据集出现:ImageNet数据集已拥有22000类约1500万张标注图像,基于ImageNet的比赛ILSVRC诞生了AlexNet、VGG、GoogleNet等经典的深度学习网络模型;3 3)破亿数据集的出现:)破亿数据集的出现:LAION数据集通过爬虫突破上亿数据量,Stable Diffusion基于LAION-5B的子集训练得到。二、二、3D3D研究框架研究框架:已破千万级数据集,:已破千万级数据集,OpenUSDOpenUSD加速数据集扩张加速数据集扩张未来,未来,3D3D
3、的发展将沿着如下思路进行:的发展将沿着如下思路进行:OpenUSDOpenUSD统一数据表现形式和文件格式,使得统一数据表现形式和文件格式,使得3D3D数据集的量得以大幅提升,数据集的量得以大幅提升,而更大数据集和更好模型相互促进发展。而更大数据集和更好模型相互促进发展。1)首个千万级数据集出现首个千万级数据集出现:7月11日发布的Objaverse-XL数据集包含1020万3D资产,主要来源于网络爬虫,是目前最大的3D数据集。3D生成出现了具有统治地位的NeRF模型和千万级数据集Objaverse-XL,3D发展到达2D图像的“2020-2021年”。2)数据集持续扩大:数据集持续扩大:US
4、DUSD简化简化3D3D文件访问,统一文件格式,提供了发展加速度。文件访问,统一文件格式,提供了发展加速度。3D模型表示方式多样,其中隐式表示越来越受重视;同时,3D数据文件多样,通用格式解决模型互导问题。2AUmNQVkY8ZpXrVoW8O9R6MpNnNpNtQeRoOyRjMqRsP6MmMwPwMrNtQuOtRsQ报告摘要三、三、文生文生3D3D的方向的方向-扩散模型扩散模型+NeRFNeRF1 1)目前目前4 4类类3D3D生成路径生成路径从易到难:从易到难:扫描得3D、视频得3D、图生3D、文生3D。2 2)文生)文生3D3D是终极状态:是终极状态:文生3D使得3D资产从“专业
5、的”变成“大众的”,是其他三种路径的最终形态。目前已有的算法中,谷歌提出DreamFusion,是较早一批实现了“文生3D模型”的AI生成模式。和DreamFusion相同,其他文生3D模型的主要结构也是“图像训练模型+3D生成模型”的结构。NeRF在3D生成模型领域具有统治地位。3 3)近两年,谷歌、英伟达、)近两年,谷歌、英伟达、OpenAIOpenAI、MetaMeta、AppleApple公司都有“公司都有“AI+3DAI+3D”布局,对于”布局,对于3D3D的探索路径主要集中在成熟的探索路径主要集中在成熟度不高的图片生成度不高的图片生成3D3D和文生和文生3D3D领域。领域。四、文生
6、四、文生3D3D成本测算:迭代次数万级以上成本测算:迭代次数万级以上1 1)2D2D的迭代次数:的迭代次数:以2D为例,一般情况下,2D场景迭代20-50次左右即可实现要求。2 2)3D3D的迭代次数:的迭代次数:单个3D的AI生成目前迭代约30000次左右,选择文生3D模型-Zero123在单个3090显卡上运行,单场景3D资产需要3-4小时左右生成。3 3)一个)一个3D3D资产生成算力成本约资产生成算力成本约5 5元左右。假设未来迭代速度变快元左右。假设未来迭代速度变快2 2倍,生成一个倍,生成一个3D3D资产算力花费约资产算力花费约2.62.6元左右,相元左右,相比于市场比于市场3D3
7、D资产购买费用,有巨大价格优势。资产购买费用,有巨大价格优势。3报告摘要五五、投资建议投资建议:3D对VR/AR游戏品类的影响:MR游戏,建议关注宝通科技、恺英网络、恒信东方;3D对美术密集型品类的影响:开放世界游戏,建议关注网易;动画产业,关注光线传媒、奥飞娱乐;3D对一般3D游戏公司的影响:3D游戏,建议关注2022年三季度低基数的三七互娱、姚记科技、凯撒文化、星辉娱乐:其他优质游戏公司如吉比特、神州泰岳、盛天网络、巨人网络、游族网络、完美世界。六六、风险提示风险提示:技术发展不及预期,产业推进不及预期,法律及道德风险。4目录一、文生一、文生2D2D复盘:“千万级数据和亿级数据”是关键复盘
8、:“千万级数据和亿级数据”是关键二、二、3D3D研究框架:已破千万级数据集,研究框架:已破千万级数据集,OpenUSDOpenUSD加速数据集扩张加速数据集扩张三、三、文生文生3D3D的方向的方向-扩散模型扩散模型+NeRFNeRF四、文生四、文生3D3D成本测算:迭代次数万级以上成本测算:迭代次数万级以上5一、文生2D复盘:“千万级数据和亿级数据”是关键1.1 2D1.1 2D模型数据量变大,涌现能力出现模型数据量变大,涌现能力出现7涌现能力的定义:在小模型中没有表现出来,但是在大模型中变现出来的能力。涌现能力的定义:在小模型中没有表现出来,但是在大模型中变现出来的能力。涌现能力大概可以分为
9、两种:通过提示就可以激发的涌现能力和使用经过特殊设计的prompt激发出的新的能力。无论哪种涌现能力,当无论哪种涌现能力,当模模型型规模规模超过一个临界值时,效果会马上提升超过一个临界值时,效果会马上提升。以以LeNetLeNet和和AEAE为例,涌现能力在为例,涌现能力在CVCV计算机视觉任务中也有所体现。计算机视觉任务中也有所体现。LeNet是由Yann Lecun(2018年图灵奖得主创造,其在手写体字符识别领域创造性引入卷积神经网络,是CNN的发展起点,通过观察LeNet在MNIST 21上训练的结果,随着模型参数的增加,测试精度显示出不可预测的大幅增长;而在CIFAR100图像数据集
10、上训练的自编码器(AE)随着模型参数的增加显示陡峭的均方重建误差变化。资料来源:Datawhale,方正证券研究所图表:图表:浅层非线性自编码器中的重构能力浅层非线性自编码器中的重构能力涌现涌现(红色为GPT-3出现的涌现,蓝色为浅层非线性自编码器出现的涌现)图表:卷积网络中图表:卷积网络中MNISTMNIST分类能力的分类能力涌现分类能力的分类能力涌现(红色为GPT-3出现的涌现,蓝色为LeNet出现的涌现)8资料来源:量子位,磐创AI,Midjourney,方正证券研究所1.2 2D1.2 2D发展重要节点:发展重要节点:20222022年春年春-20222022年秋年秋图表:图表:2D2
11、D图像发展路径图像发展路径开端:开端:20092009-20202020年年发展:发展:20202020年年-20212021年年大模型时代:大模型时代:20222022年春年春-20222022年秋年秋爆发:爆发:20222022年秋年秋-20232023年春年春开拓:开拓:20232023年春至今年春至今20092009年,年,ImageNetImageNet问问世世2014 2014 年年 12 12 月月,GANGAN问世问世2012015 5 年年 1111 月月,第一个实际可用第一个实际可用的的 GAN GAN 架构架构(DCGAN)(DCGAN)问世问世20152015-2020
12、2020年,年,GAN GAN 架构的论架构的论文开始爆炸式文开始爆炸式井喷井喷20212021年年1 1月月DALLDALL-E E第一个第一个版本发布;版本发布;CLIPCLIP问世问世2021 2021 年年 6 6 月月,扩散模型击败扩散模型击败GANGAN模型模型202120212 2年年 4 4 月月,DALLE 2DALLE 2问世,问世,“prompt prompt engineeringengineering”成为图像合成成为图像合成的主要方法的主要方法NeurIPS 2022NeurIPS 2022论文质量高论文质量高CVPR 2022CVPR 2022多篇多篇论文与论文与
13、NeRFNeRF有有关关NeurIPS 2022 NeurIPS 2022 best papebest pape包包括括ImagenImagen、LAIONLAION-5B5B、edmedm;一系列;一系列探索扩散模型探索扩散模型扩散形式的探扩散形式的探索开展索开展20222022年年1212月月,Stable Stable Diffusion Diffusion 2.02.0版本版本发布发布20232023年,年,Midjourney Midjourney V4V4、V5V5发布,发布,功能日渐丰富功能日渐丰富2.02.0版本版本发布发布可控图像生成与编辑是可控图像生成与编辑是主旋律主旋律:
14、可控的图像生成、对象(概念)驱动的/基于示例的图像编辑、文本驱动的图像编辑、图像修复/扩展、风格迁移、基于点的交互式图像编辑.大规模大规模数据集数据集开启开启2D2D发展篇发展篇章章扩散模型出现,扩散模型出现,统一统一2D2D生成领域生成领域上亿量级数据集上亿量级数据集出现,激发模型出现,激发模型涌现能力涌现能力9资料来源:arXiv,机器学习基础,paperwithcode,方正证券研究所1.2.1 1.2.1 扩散模型领先于扩散模型领先于GANGAN、自回归模型、自回归模型42%31%6%6%5%3%3%3%3%降噪图像生成文本到图像生成语义分割超分辨率图像分类物体检测语言建模图像去噪扩散
15、模型(扩散模型(diffusion modelsdiffusion models)成为)成为2D2D生成模型中主流模型,生成模型中主流模型,逐渐领先于逐渐领先于GANGAN、自回归模型,、自回归模型,显著提高了图像生成的稳定性、准确性和多样性。并且扩散模型在诸多应用领域都有出色的表现,如计算机视觉,NLP、波形信号处理、多模态建模、分子图建模、时间序列建模、对抗性净化等。图表:扩散模型的主要应用领域图表:扩散模型的主要应用领域图表:图像领域主要图表:图像领域主要SOTASOTA模型模型一、一、GAN GAN 生成阶段生成阶段稳定性较差二、自回归生成阶段二、自回归生成阶段推理速度和训练成本问题应
16、用受限三、扩散模型生成阶段三、扩散模型生成阶段当前主流图像生成模型显著提高稳定性、准确性和多样性20142014年年,Generative Adversarial Networks20162016年年,Conditional Image Generation with PixelCNN Decoders20202020年年,Denoising Diffusion Probabilistic Models1.2.2 1.2.2 ImageNetImageNet:首个千万级别:首个千万级别2D2D数据集,借助众包平台完成数据集,借助众包平台完成10资料来源:paperswithcode等,量子位,
17、机器之心,方正证券研究所ImageNetImageNet数据集数据集0909年发布,目前包含约年发布,目前包含约15001500万张标注图像万张标注图像。ImageNet数据集由斯坦福大学教授李飞飞牵头从2007年开始收集建立。2009年发布时包含有320万张图像,是当时最大的2D图像数据集。经过发展,ImageNet数据集已拥有22000类约1500万张标注图像。ImageNetImageNet来源于网络图像,借助众包平台(来源于网络图像,借助众包平台(Mechanical TurkMechanical Turk)完成。完成。数据集的大量图像数据来自于日益增长的网络平台,考虑到手动标注工作的
18、大量人力需求,研究团队借助于Mechanical Turk(亚马逊开发的众包平台)完成这项工作。图表:图表:ImageNetImageNet数据集出现之前的数据集图片数量数据集出现之前的数据集图片数量来自来自167167个国家的个国家的4 4万万9 9千名工作者千名工作者用用3 3年(年(20072007-20102010)成就)成就ImageNetImageNet图表:图表:ImagNetImagNet借助众包平台完成借助众包平台完成时间时间数据集名称数据集名称图片数量图片数量1998年CMU/VASC Faces337个人超过750,000张图像1998年FERET Faces自1199个
19、不同个体的14,126张图像1998年MNIST digits70,000手写数字图像1999年CuRRET Textures5,000+纹理图像2001年Middlebury Sterco几十对立体匹配图像2003年CalTech 1019,146张图像,256个类别2004年KTH human action2,391个人类动作视频2006年ESP1000场景图像2006年MSRC30个人执行12类动作行为2007年PASCAL20类共9963张图片2007年Lotus HILL500,000个图像(或视频帧)2007年CalTech 25630,607张图像,257个类别2008年Labe
20、lMe数万张图像及标注2008年TinyImages79,300,000张小型32*32 像素的彩色图像2009年ImageNet300万图像,后包含1500万图像11460 2127 6256 23991 1612 4385 2357 15.3%13.5%6.7%3.6%3.0%2.3%0.0%2.0%4.0%6.0%8.0%10.0%12.0%14.0%16.0%18.0%0500010000150002000025000300002012年2013年2014年2015年2016年2017年基准年均被引用次数(次)年均被引用次数(次)测试错误率测试错误率11资料来源:CSDN,机器之心,谷
21、歌学术,方正证券研究所基于基于ImageNetImageNet的比赛的比赛ILSVRCILSVRC每年举办一次每年举办一次,从从20102010年开始举行,年开始举行,20172017年后的比赛由年后的比赛由KaggleKaggle社区主持。比赛逐渐社区主持。比赛逐渐成为全球大型赛事,成为全球大型赛事,20162016年有年有172172个作品参赛。短短个作品参赛。短短7 7年内,分类领域的错误率就从年内,分类领域的错误率就从0.280.28降到了降到了0.030.03。以扩散模型为基准,以扩散模型为基准,ILSVRCILSVRC冠军算法中冠军算法中AlexNetAlexNet(1212年)、
22、年)、GoogleNetGoogleNet(1414年)、年)、ResNetResNet(1515年)、年)、SENetSENet(1717年)等算法均超过扩散模型的影响力(年)等算法均超过扩散模型的影响力(以年均被引用量表示算法影响力)。比赛的历年优胜者中,诞生了基于ImageNet训练的AlexNet、VGG(2014年定位比赛冠军)、GoogleNet等经典的深度学习网络模型。冠军算法历年的测试错误率在6年间从15%下降到2%,极大地推动了计算机视觉领域的发展。图表:图表:ILSVRCILSVRC的参与作品数和的参与作品数和TOP 1TOP 1的分类错误率和物体识别平均值的分类错误率和物
23、体识别平均值352029891231571720.280.280.030.030.230.230.660.6600.350.7040801201602002010201120122013201420152016作品数分类错误率物体识别的平均准确率图表:图表:ILSVRCILSVRC冠军算法的历年测试错误率和年均被引用量冠军算法的历年测试错误率和年均被引用量1.2.2 1.2.2 多个重量级算法诞生于多个重量级算法诞生于ImageNetImageNet数据集数据集AlexNetZFNetGoogleNetResNetResNeXtSENet扩散模型扩散模型12资料来源:paperswithcod
24、e,OpenDataLab,方正证券研究所图表:大规模数据集类型及图片文字对量级图表:大规模数据集类型及图片文字对量级LAIONLAION(拥有全球成员的非营利组织)在(拥有全球成员的非营利组织)在20212021年公布的年公布的LAIONLAION-400M400M是当时最大的公开图文数据集是当时最大的公开图文数据集,22,22年年1010月发月发布的布的LAIONLAION-5B5B是上一版本的是上一版本的1414倍。倍。网络爬虫带来数亿级别公有数据集。网络爬虫带来数亿级别公有数据集。LAION的收集使用加州非营利组织Common Crawl收集到的代码来定位网络上的图片,并将它们与描述性
25、文本关联起来,对人工的依赖性很小。上亿数据集成为图像训练模型上亿数据集成为图像训练模型成熟应用的成熟应用的必要条件。必要条件。LAION的数据集已经被用于文生图的生成器,包括谷歌Imagen和Stable Diffusion。同时,其他已落地图像生成应用的国内外公司均是在上亿级别的2D图像数据集进行模型训练取得满意效果。类型类型数据集数据集图片文字对图片文字对私有数据集私有数据集MS-COCO330,000 CC3M3,000,000 Visual Genome5,400,000 WIT5,500,000 CC12M12,000,000 RedCaps12,000,000 LAION-5B23
26、0,000,000 公有数据集公有数据集CLIP WIT400,000,000 ALIGN180,000,000 BASIC660,000,000 模型模型机构机构数据来源数据来源Stable DiffusionStabilityAlLAION-5B的一个子集的一个子集DALL-E 2OpenAl使用CLIP数据和DALL-E数据(共计共计650M图像图像)进行训练MidjourneyMidjourney开源数据开源数据ImagenGoogle内部数据集(460M图像图像-文本对文本对),以及Laion数据集(400M图像文本对图像文本对)图表:国内外图像生成公司图表:国内外图像生成公司&机构
27、模型一览机构模型一览1.2.3 1.2.3 LAIONLAION:破亿数据集出现,模型落地离不开亿级数据:破亿数据集出现,模型落地离不开亿级数据二、3D研究框架:已破千万级数据集,OpenUSD加速数据集扩张14资料来源:方正证券研究所2 3D2 3D发展研究框架发展研究框架3D3D数据表现形数据表现形式多样式多样数据集规数据集规模变大模变大3D3D生成模型生成模型质量更好质量更好3D3D模型生模型生成结果质成结果质量问题进量问题进一步解决一步解决数据集规数据集规模问题进模问题进一步解决一步解决3D3D数据文件格数据文件格式多样式多样OpenUSDOpenUSD统一标准统一标准3D3D生成领域
28、生成领域图表:图表:3D3D生成领域发展思路生成领域发展思路OpenUSDOpenUSD统一数据表现形式和文件格式,提供统一数据表现形式和文件格式,提供3D3D发展加速度。发展加速度。3D数据集数据记录形式多样,包含点云、体素等,以往模型往往针对不同形式有不同的算法;同时,3D数据文件格式多样,跨文件转化不易,也提高了数据集收集门槛,限制了3D数据集的发展。而OpenUSD的推进有望解决以上问题,进一步解决数据集规模问题。更大数据集和更好模型相互促进发展。更大数据集和更好模型相互促进发展。基于更大3D数据集进行的训练能够得到更好的3D生成质量。生成结果经过简单处理可以大大减少人工建模时间和步骤
29、,从而进一步扩大3D数据集,至此3D生成领域良性循环发展。表示类型表示类型显式表示显式表示显式表示显式表示显式表示显式表示显式表示显式表示隐式表示隐式表示隐式表示隐式表示隐式表示隐式表示模型示例模型示例表示方式表示方式点云Point Cloud网格Polygon Mesh体素Voxel多视角图片Multi-view ImagesOccupancy FunctionSDF(Signed Distance Function)INRs隐式神经表示(Implicit Neural Representations)表示内容表示内容三维坐标系统中点的集合,这些点通常以x,y,z坐标来表示,并且一般用来表示
30、物体的外表形状。由一组凸多边形顶点以及凸多边形表面组成的,也叫做非结构化网格。概念上类似于二维空间中的最小单位-像素通过不同视角的虚拟摄像机从物体模型中获取到的二维图像的集合将物体表示为一个占有函数,即空间中每个点是否在表面上SDF将物体表示为符号距离函数,即空间中每个点距离表面的距离将信号参数化为一个连续函数,将信号的域映射到该坐标上的属性的值(对于图像,就是将像素坐标映射到R,G,B颜色)收集方式收集方式激光扫描仪、近红外激光器投影、双目相机拍摄、多视角重建等使用点云数据转化或将已有3D模型进行转化不同视角的虚拟摄像机对3D模型摄像或拍摄不同视角图片使用MLP模拟函数,输入物体3D空间坐标
31、,输出对应的几何信息记录15资料来源:SIGAI,CSDN,方正证券研究所2.1.1 3D2.1.1 3D模型表示方式多样,隐式表示越来越受重视模型表示方式多样,隐式表示越来越受重视主要数据表示方式:隐式表示,其中主要数据表示方式:隐式表示,其中INRsINRs(隐式神经表示)被用于(隐式神经表示)被用于3D3D主流模型主流模型NeRFNeRF中,受到学界重视。中,受到学界重视。3D数据的世界没有一致性,目前已有的3D数据集表示方法包括点云、网络、体素、多视角图片等,不同的表示采用的训练路径也大不相同。隐式表示解决了显式表示造成重叠、消耗内存等缺点,适用于大分辨率场景,隐式表示解决了显式表示造
32、成重叠、消耗内存等缺点,适用于大分辨率场景,INRsINRs甚至可以生成照片级的虚拟甚至可以生成照片级的虚拟视角。视角。NeRF模型首次利用隐式表示实现了照片级的视角合成效果,也将隐式表示推向新的高度。图表:图表:3D3D实例存储的表示方法和收集方式实例存储的表示方法和收集方式16资料来源:三木微站,维基百科,方正证券研究所整理2.1.2.1.2 2 通用格式解决模型互导问题,通用格式解决模型互导问题,USDUSD简化简化3D3D文件访问文件访问图表:常见通用格式及其主要应用方向图表:常见通用格式及其主要应用方向特质特质.gltf/.gllb.obj.fbx.stl.3dsusd/.usdz包
33、含信息包含信息几何几何材质材质动画动画图形图形颜色颜色其他其他三角面片优点优点轻量级、支持复杂的3D数据,包含材质和动画,可嵌入式,可扩展性好简单易读,广泛支持,适用于交换模型数据支持动画、材质、骨骼等,可嵌入额外数据极简格式,适用于机械设计等,数据格式直接,易于转换广泛支持,能够存储材质和纹理信息用于特效制作、动画制作、虚拟现实等,支持大规模场景,高性能渲染缺点缺点文件可能较大;闭源格式,不适合一些开放场景不支持动画、不适用于复杂场景,闭源格式,不适合一些开放场景不支持材质、纹理、动画等高级信息,不能表达复杂几何结构不支持现代3D图形特性,不适合高精度渲染学习曲线较陡,不太适合初学者,某些特
34、性需要高级的计算机图形技能适用场景适用场景专门为影视和游戏而开发专门为影视和游戏而开发出现较早,几乎所有出现较早,几乎所有知名的知名的3D软件都支持软件都支持电影界及视频游戏开电影界及视频游戏开发最常用的文件格式发最常用的文件格式3D打印、工程应用等打印、工程应用等专为互联网专为互联网 Web 而设计而设计支持跨平台、高性能渲染、可支持跨平台、高性能渲染、可进行移动端访问读写进行移动端访问读写3D3D文件格式多样,适用领域不同,模型互导问题通过通用文件格式解决。文件格式多样,适用领域不同,模型互导问题通过通用文件格式解决。3D创建需要各种工具和平台的搭配利用,其他应用程序无法编辑甚至读取,带来
35、了模型互导的问题,导致3D文件格式众多,种类有数十种。多软件之间对同一模型进行编辑操作时先将模型文件另存为通用格式,再导入到其它软件。USDUSD作为一种通用软件,支持移动端等途径的便携访问和读写。作为一种通用软件,支持移动端等途径的便携访问和读写。许多传统3D模型为本地客户端设计,需要极高的硬件配置才能正常浏览,存储占用较大且文件打开速度慢。而对于.usd/.usdz文件格式,用户可像浏览普通照片或者文本一样在桌面端、Web端、移动端、AR/VR等终端正常浏览。17资料来源:OpenUSD,NVIDIA英伟达,方正证券研究所USDUSD承担承担互联网互联网3D3D时代的时代的HTMLHTML
36、角色。角色。23年8月8日SIGGRAPH大会上,NVIDIA创始人黄仁勋表示:“正如 HTML点燃了2D互联网的重大计算革命,OpenUSD也将开启协作式3D和工业数字化的时代。”AOUSDAOUSD不断降低不断降低USDUSD文件学习和使用门槛,推动文件学习和使用门槛,推动USDUSD成为成为3D3D标准。标准。USD是由皮克斯公司(Pixar)开发的开源格式,可以在不同的工具间进行内容创作和交换,但学习曲线陡。针对这一问题,致力于推动USD文件格式发展的OpenUSD联盟(AOUSD,由皮克斯、Adobe、苹果、Autodesk和英伟达与Linux基金会下属组成)开展了一系列有效举措,如
37、NVIDIA Omniverse 平台,来降低用户的使用阻力。图表:图表:USDUSD支持的支持的3D3D内容创建应用程序和生态系统名单内容创建应用程序和生态系统名单2.1.2.1.3 3 USDUSD统一统一3D3D表示标准表示标准,OpenUSD,OpenUSD联盟降低联盟降低USDUSD使用门槛使用门槛图表:图表:NVIDIA OmniverseNVIDIA Omniverse 平台助力平台助力OpenUSD OpenUSD 框架和生成式框架和生成式AIAIOmniverse Kit更新全新模块化应用构建全新开发者模板和资源提升效率和用户体验由原生RTX驱动空间集成Omniverse U
38、SD Composer升级Omniverse Audio2Face升级构建全新的 Omniverse Cloud API.Adobe FireflyWonder Dynamics3D图像捕捉平台Luma AI角色引擎公司Inworld AI虚拟形象公司ConvaiBlackshark.AI 世界数字孪生平台接入接入.18资料来源:Objaverse-XL:A Universe of 10M+3D Objects,方正证券研究所20232023年年7 7月月1111日日发布的发布的ObjaverseObjaverse-XLXL数据集数据集包含包含10201020万万3D3D资产,资产,对比于对比
39、于ObjaverseObjaverse1.01.0版本版本增加一个量级。增加一个量级。bjaverse-XL通过对互联网上3D对象的类源进行爬虫获取,实例涵盖生活、虚拟多样化场景,最终获得了1020万已渲染的高质量3D文件数据。类比于类比于2D2D生成发展路径,生成发展路径,3D3D生成出现了具有统治地位的生成出现了具有统治地位的NeRFNeRF模型和千万级数据集模型和千万级数据集ObjaverseObjaverse-XLXL,3D3D发展来到发展来到2D2D的“的“20202020-20212021年”。可以预见当未来年”。可以预见当未来数据集成长到亿级,数据集成长到亿级,3D3D生成也将迎
40、来爆发。生成也将迎来爆发。图表:图表:3D3D模型实例爬取来源占比模型实例爬取来源占比56%35%8%1%GitHubThingiverseSketchfabPolycam and the Smithsonian Institute2.2.1 2.2.1 首个千万级数据集出现,首个千万级数据集出现,3D3D发展来到发展来到2D2D的的“20202020-20212021年年”图表:图表:ObjaverseObjaverse-XLXL比比ObjaverseObjaverse大一个量级大一个量级19资料来源:Objaverse-XL:A Universe of 10M+3D Objects,CSD
41、N,方正证券研究所对已有算法对已有算法PixelNeRFPixelNeRF(NeRFNeRF的一种改进方法)的一种改进方法)和和Zero123Zero123(一种文生图模型)进行训练,发现(一种文生图模型)进行训练,发现通过通过基于基于更多更多数据进行训练数据进行训练,3D3D质量有质量有显著显著的改进的改进。PixelNeRF随着数据集量级变大,图像质量评估指标PSNR(Peak Signal-to-Noise Ratio,峰值信噪比,数值越大表明失真越少)变大,表明新生成的视角图像质量越好,有利于提高后续三维重建质量;对使用Objaverse-XL(1000万量级数据)、Objaverse
42、(800万量级数据)训练得到的Zero123-XL和Zero123比较,发现生成的3D资产侧面、背面的完成度有显著的提升。图表:比较同样视角和相机姿势下的图表:比较同样视角和相机姿势下的Zero123Zero123-XLXL(红色框)(红色框)和和Zero123Zero123(绿色框)效果(绿色框)效果图表:图表:PixelNeRFPixelNeRF的的PSNRPSNR与数据集大小关系图与数据集大小关系图2.2.2.2.2 2 数据集越大,新视角图片更优,数据集越大,新视角图片更优,3D3D生成效果更好生成效果更好20资料来源:WYlog,Sketchfab,方正证券研究所原有原有3D3D建模
43、流程长,具有资产属性建模流程长,具有资产属性。3D资产在游戏、动画公司等均属于资产,目前大多数实例由Blender和Maya3D等建模软件手工设计,人工建模涉及环节多,主要流程有:寻找实例-粗略布局-细节说明-纹理-渲染-检查,且建模过程需要大量时间和专业知识。3D3D资产昂贵,免费实例不足。资产昂贵,免费实例不足。公开的免费实例较少,成为阻碍3D数据集扩展的主要原因。在号称世界上最大的3D内容库平台Sketchfab上,3D模型每个价格从$3-$500不等。图表:图表:SketchfabSketchfab部分售卖内容展示部分售卖内容展示6、检查、检查不关注细节,为未来模型建立一个粗略的基础估
44、计选择不同建模,如多边形建模、曲面建模等材质包裹模型,并添加纹理,过程分为UV展开、绘画、着色、照明等将整个场景数字化为静态 2D 图像,看起来像真实照片1 1、寻找示例、寻找示例收集目标对象的参考资料,找到优秀的视觉示例。2 2、粗略布局、粗略布局 3 3、细节说明、细节说明4 4、纹理过程、纹理过程5 5、渲染过程、渲染过程图表:图表:3D3D建模流程建模流程2.2.2.2.3 3 3D3D资产建模流程长,免费实例不足资产建模流程长,免费实例不足21资料来源:方正证券研究所整理3D3D模型训练效果依赖于模型训练效果依赖于3D3D数据集,但目前的数据集量级无法激发出模型的涌现能力,对生成的数
45、据集,但目前的数据集量级无法激发出模型的涌现能力,对生成的AI+3DAI+3D资产进资产进行人工进一步优化所需要的时间和人力成本依然巨大。行人工进一步优化所需要的时间和人力成本依然巨大。目前数据集仍然是目前数据集仍然是3D3D生成领域发展的重中之重。生成领域发展的重中之重。更大规模的数据集一旦能够出现,AI+3D模型的质量会随之变好,因此,模型生成的3D资产在经过简单的加工之后即可补充到3D数据集中,良性循环由此开启。2.2.2.2.4 4 3D3D生成质量变好,模型产物补充生成质量变好,模型产物补充3D3D数据集内容数据集内容3D3D数据集数据集3D3D模型模型AIAI生成生成+人工修改后的
46、人工修改后的3D3D数据数据3D3D数据集数据集3D3D模型模型图表:大型图表:大型3D3D数据集下训练的高质量数据集下训练的高质量3D3D模型可以有效补充数据集模型可以有效补充数据集原有模式原有模式理想模式理想模式三、文生3D的方向-扩散模型+NeRF23资料来源:书生说,BIM软件安装管家,电子报,方正证券研究所整理3.1 3.1 3D3D生成产业方向生成产业方向-文生文生3D3D是最终需求是最终需求扫描得扫描得3D3D视频生视频生3D3D图生图生3D3D文生文生3D3D使用扫描仪、激光雷达等利用3D扫描技术,结合数字三维重建等技术手段建模优点:优点:生成质量高,发展成熟缺点:缺点:扫描仪
47、器专业,昂贵不易得质量:质量:速度:速度:落地:落地:只需要一部手机或者一段视频,即可进行三维场景重建优点:优点:使用比较方便,受众广 缺点:缺点:生成质量不够高,对设备、平台有一定要求质量:质量:速度:速度:落地:落地:只需要数十张甚至数张真实场景图片即可完成建模优点:优点:输入2D数据要求低 缺点:缺点:生成3D模型的质量不够高,速度慢质量:质量:速度:速度:落地:落地:输入文字Prompt生成3D模型优点:优点:符合大众认知,潜在客户广 缺点:缺点:待发展,速度慢,质量不一质量:质量:速度:速度:落地:落地:目前存在目前存在4 4类类3D3D生成路径,实现难度从易到难。文生生成路径,实现
48、难度从易到难。文生3D3D是终极需求,将是终极需求,将3D3D资产从资产从“专业的专业的”变成变成“大众的大众的”。在生成质量、速度、落地程度方面,扫描得3D、视频生3D已经较为成熟,但主要受限于机器的可达性差,没能获得广泛关注;图生3D在特定场景下正逐步落地。相比于前三种方法,文生3D可以直接生成文字描述的场景,甚至现实中不存在的事物,对于没有专业知识的普通人更加友好,且不需要提前准备扫描仪等额外设备。图表:图表:3D3D生成路径整理生成路径整理从从易易到到难难24资料来源:文汇报,三次方AIRX,苹果官网,只象光电,3D Scanner App,方正证券研究所3.1.1 3.1.1 扫描得
49、扫描得3D3D:成熟落地,手机即可实现:成熟落地,手机即可实现3D3D扫描技术结合数字三维重建等技术手段扫描技术结合数字三维重建等技术手段,利用三维扫描设备,利用三维扫描设备,可以对自然或人工合成物体进行建模,重建可以对自然或人工合成物体进行建模,重建真实物体的三维模型真实物体的三维模型,目前已广泛运用于建筑保护、目前已广泛运用于建筑保护、CTCT扫描、扫描、AR/VRAR/VR等领域等领域。随着时间的发展,扫描仪的可得性、便携性逐渐增强。随着时间的发展,扫描仪的可得性、便携性逐渐增强。2015年安德鲁塔隆团队就为巴黎圣母院大教堂完成精度5mm的激光扫描和三维建模,越来越多的扫描工作让古物永久
50、保存。2020年iPad Pro出现用于3D扫描和增强现实的深度传感器(LIDAR),配合应用程序3D Scanner Pro可以进行3D扫描。iOS 12的Quicklook功能更是可以用USDZ格式将3D模型分享给其他人。苹果RealityScan依靠手机的摄像头就可以实现扫描建模,iOS端和安卓版本均已发布。图表:图表:文物三维成像原理文物三维成像原理1 1、手持扫描仪、手持扫描仪2 2、对物体进行扫描、对物体进行扫描3 3、生成三维数据、生成三维数据对建筑进行扫描对建筑进行扫描生成建筑模型生成建筑模型选中选中A3DA3D模型及格式模型及格式将模型加入到现实场景将模型加入到现实场景3D3
51、D模型和真实物体存在于同一空间模型和真实物体存在于同一空间图表:图表:3D Scanner Pro3D Scanner Pro应用场景展示应用场景展示25资料来源:海外独角兽,GGAC,NVIDIA英伟达,方正证券研究所3.1.2 3.1.2 视频视频生生3D3D:成熟落地,具备动态实时建模能力:成熟落地,具备动态实时建模能力视频生成视频生成3D3D的技术已有落地产品,对于设备的要求越来越低,目前已经可以做到动态实时建模。的技术已有落地产品,对于设备的要求越来越低,目前已经可以做到动态实时建模。无需激光雷达或捕捉设备,现在只需要一部手机或者一段视频,即可进行三维场景重建。22年开放网页版的Lu
52、ma应用,以NeRF为核心,仅仅通过iPhone即可通过 AI创建3D;2022年10月,Connect大会上,扎克伯格技术演示中展示了Codec Avatars 2.0的最新进展,Instant Codec Avatars只需用智能手机从不同角度扫描人脸再进行各种表情的扫描,数小时可生成精细的虚拟化身;CYAN.AI平台以CNN(卷积神经网络)和DNN(深度神经网络)为核心,从2D视频中提取人体运动的关键特征进行身体姿势识别,生成的3D成果还可以与Unity集成。22年10月开放网页版Luma22年11月iOS版App开始测试22年12月推出文生3D模型功能23年1月iOS版App开始支持N
53、eRF Reshoot23年1月升级NeRF,自动去除杂影23年2月推出网页版全体积NeRF渲染器23年3月iOS版App支持AR预览;推出视频转3D API左右上下表情表情图表:图表:Luma AILuma AI进展进展图表:图表:Instant Codec AvatarsInstant Codec Avatars使用实际生成虚拟化身使用实际生成虚拟化身2023年4月,推出Luma Unreal Engine Alpha2023年5月,发布 Unreal Engine plug-in V22023年7月,发布Unreal Engine plug-in v0.32023年8月,发布Flythr
54、oughs26资料来源:AI前哨站,GameLook,方正证券研究所3.1.3 3.1.3 图生图生3D3D:距离真正商用还有一定距离:距离真正商用还有一定距离相比于扫描,图生相比于扫描,图生3D3D只需要数十张甚至数张真实场景图片即可完成建模。从目前阶段来看,图生只需要数十张甚至数张真实场景图片即可完成建模。从目前阶段来看,图生3D3D模型的模型的发展还处于实验室阶段,距离真正商用还有一定的距离。发展还处于实验室阶段,距离真正商用还有一定的距离。3D生成技术中的NeRF模型的本质就是图生3D。输入是一组二维图像和相应的摄像机参数(包括相机位置和方向),输出是表示三维场景中每个点的颜色和密度的
55、函数。科技公司在不断尝试研发对应的工具。科技公司在不断尝试研发对应的工具。已有的应用公司包括付费应用Kaedim,用户最少仅需上传一张照片,Kaedim3D即可识别出图中物体的3D形态,并用可导入几乎所有主流软件的格式输出给用户;另外,免费3D模型生成工具PIFuHD可以配合其他2D图像生成软件生成3D模型,但模型并不能直接导入虚幻引擎或者研发引擎当作游戏角色或者NPC。1、Midjourney V5版本生成图2、角色单独选出并放到白色背景保存;使用PIFuHD进行3D生成3、模型导入3ds Max进行修改4、做一些UV映射与与图片相符的面图片相符的面质量较好质量较好其余角度相对粗糙,其余角度
56、相对粗糙,有有小瑕疵小瑕疵图表:图表:PIFuHDPIFuHD生成效果:在有些角度质量仍有暇生成效果:在有些角度质量仍有暇27资料来源:Tafi,元宇宙探索院,前端程序设计,方正证券研究所整理3.1.4 3.1.4 文生文生3D3D:学界以科技巨头紧密发力领域学界以科技巨头紧密发力领域应用端能够支持文生应用端能够支持文生3D3D的平台很少(如的平台很少(如3dfy.ai3dfy.ai、TafiTafi、Masterpiece StudioMasterpiece Studio平台),具有时间长,复杂模平台),具有时间长,复杂模型精度低等问题,仍未达到运用于产业生产环节的标准。型精度低等问题,仍未
57、达到运用于产业生产环节的标准。20232023年年6 6月,月,TafiTafi发布文生发布文生3D3D引擎,受限于数据集,其生成内容主要是引擎,受限于数据集,其生成内容主要是3D3D人型角色。人型角色。领先的3D内容和软件提供商Tafi利用专业美术师支持的原创角色平台“Genesis”庞大的3D数据集,宣布可以从文本创建3D角色,可生成数十亿个3D角色变体。生成的结果可导出到各种 DCC 工具,将高质量角色输出到流行的游戏引擎和 3D 软件应用程序,例如 Unreal、Unity、Blender、Maya、Maxon Cinema 4D等,但受限于训练数据来自3D角色资产,Tafi的生成内容
58、主要集中于人型角色。指令:生成一个中年亚洲男人指令:让他变得老一些矮一些指令:穿上科幻感的制服指令:将角色转变成外星人指令:选择第4个进行保存图表:图表:TafiTafi演示视频演示视频28资料来源:DreamFusion:Text-to-3D using 2D Diffusion,方正证券研究所整理3.2.1 3.2.1 谷歌谷歌DreamFusionDreamFusion算法算法-Imagen+NeRF Imagen+NeRF DreamFusionDreamFusion由谷歌提出,通过将由谷歌提出,通过将2D2D生成模型与生成模型与NeRFNeRF结合实现,结合实现,是较早一批实现了“文
59、生是较早一批实现了“文生3D3D模型”的模型”的AIAI生成生成模式。模式。底层原理是利用生成2D的图像模型获得Prompt的随机视角视图,在计算误差损失之后优化神经辐射场(NeRF)生成的3D模型,通过对这一过程的循环迭代以达到较精确效果。DreamFusion将大型AI图像模型Imagen与NeRF的3D功能相结合,首次在无需3D数据的情况下完成开放域的文本到3D的合成。第一步,第一步,随机相机和光采样对每一个视角都学习NERF MLP,并计算密度、颜色、形状法线等几何信息第三步,第三步,计算此视图下相关的扩散损失第二步,第二步,以 64 64 分辨率渲染着色 NeRF 模型第四步,第四步
60、,优化。进行15,000 次迭代,大约需要1.5小时反向传播到反向传播到NerfNerf权重权重生成3D模型指令:“a DSLR photo of a pencock on a surfboard”图表:图表:DreamDiffusionDreamDiffusion的训练过程的训练过程29资料来源:新智元,智能机器人技术,机器之心,方正证券研究所整理对于文生对于文生3D3D模型来说,模型一般都具有:模型来说,模型一般都具有:1 1、生成不同视角图片的训练模型;、生成不同视角图片的训练模型;2 2、利用新视角或者图片进行、利用新视角或者图片进行渲染得到的渲染得到的3D3D生成模型。其中新视角的生
61、成来达到优化的目的。生成模型。其中新视角的生成来达到优化的目的。和DreamFusion同一思路的还有Point-E模型(OpenAI团队)、Magic3D模型(英伟达)、ProlificDreamer模型(清华大学团队)等模型。各视角下,一致性更高的各视角下,一致性更高的2D2D生成往往决定了生成往往决定了3D3D资产最初阶段生成的粗模精度;而资产最初阶段生成的粗模精度;而3D3D粗模的质量越高,渲染粗模的质量越高,渲染得到精模所花费的时间也会减少。得到精模所花费的时间也会减少。图表:主要文生图表:主要文生3D3D模型的两部分结构所用模型模型的两部分结构所用模型时间时间模型模型组织组织图像训
62、练模型图像训练模型3D生成模型生成模型2022年11月Magic3D英伟达高分辨率潜在扩散模型(LDM)NeRF改进模型-Instant NGP2022年12月Point EOpenAI扩散模型DALL-E2等基于数百万3D对象和相关元数据训练得到的3D点云扩散模型2023年5月ProlificDreamer清华大学2D扩散模型如 Stable-Diffusion+基于该预训练模型的LoRA使用VSD和DMTet进行优化的Instant NGP3.2.3.2.2 2 “图像训练模型图像训练模型+3D+3D生成模型生成模型”是文生是文生3D3D的主要结构的主要结构30资料来源:NeRF:Repr
63、esenting Scenes as Neural Radiance Fields for View Synthesis,Dimensions,方正证券研究所NeRFNeRF的研究目的是合成同一场景不同视角下的图像。根据给定一个场景的若干张图片,推理时输入不同视角的研究目的是合成同一场景不同视角下的图像。根据给定一个场景的若干张图片,推理时输入不同视角就可以合成(渲染)该视角下图像。就可以合成(渲染)该视角下图像。神经隐式表示(neural implicit representation)从2019年开始兴起,2020年ECCV会议上的最佳论文NeRF:Representing Scenes
64、as Neural Radiance Fields for View Synthesis提出NeRF算法,将隐式表示推向新的高度。3D3D生成领域内,生成领域内,NeRFNeRF能力受到广泛认可,具有统治地位。能力受到广泛认可,具有统治地位。2022年,关于NeRF的引用文章就有615篇,其中不乏高质量文章,在2020-2022年里,NeRF的引用量多达1074次。第一步、输入训练数据第二步、四棱锥代表的是前一步骤中各个图片所对应的相机姿态(R,t)第三步、合成出任意新视角的图片图表:图表:NeRFNeRF的训练过程的训练过程图表:图表:NeRFNeRF论文被引用量(次)论文被引用量(次)3.
65、2.3.2.3 3 NeRFNeRF在在3D3D建模领域具有统治地位建模领域具有统治地位1628761541601002003004005006007002020年2021年2022年2023年(未完)31资料来源:方正证券研究所整理3.3 3.3 大厂的大厂的3D3D生成探索生成探索近两年,谷歌、英伟达、近两年,谷歌、英伟达、OpenAIOpenAI、MetaMeta公司都有“公司都有“AI+3DAI+3D”布局,对于”布局,对于3D3D的探索路径主要集中在成熟度不高的探索路径主要集中在成熟度不高的图片生成的图片生成3D3D和文生和文生3D3D领域。领域。23年初,ChatGPT文本生成、2
66、D图像生成的爆发激发了市场对于这两种路径的探索,希望打通利用希望打通利用AIAI直接从文字生成直接从文字生成3D3D的通道的通道:1:1、文生、文生2D2D后,后,2D2D生生3D3D;2 2、文生、文生3D3D。1、英伟达:人工智能计算公司,在3D领域的布局较早。在22年就有了Get3D、Magic3D等涉及文生3D的模型,是3D领域的重要开拓者。同时不断升级芯片适用于图形计算和3D渲染等,参与到AUSD致力于3D的统一和发展。2、谷歌:作为全球最大的搜索引擎公司,同时也是科技公司。DreamFusion模型是最早一批实现了“文生3D”的模型,为后续公司的探索打下了基础。3、Meta:前身F
67、acebook,在3D领域的探索和打造元宇宙的公司目标相吻合。研究方面,Meta致力于3D虚拟人的突破以及如何搭配VR/AR眼镜的视频转3D技术。4、OpenAI:在23年初的AI爆发中拥有GPT语言大模型和DALLE文生图模型,并不断探索多模态。3D方面,延续了“文生XX”的模式,充分利用语言大模型优势,贡献有Shap-E、Point-E等文生3D模型。5、Apple:苹果致力于打造“3D-AR”生态的软硬件体系化,其中头显研发已经有七年,且公司不断进行3D领域的技术储备、相关公司收购等,每年的WWDC大会也都会有AR/MR软硬件的消息更新。32资料来源:新智元,量子位,方正证券研究所英伟达
68、英伟达2022022 2年年1111月发布月发布Magic3D Magic3D 模型模型具备能力:输入文字生成3D;基于提示的 3D 网格编辑模型概述:两阶段,低分辨率优化(3D重建模型Instant NGP)和高分辨率文本到图像潜(latent)扩散先验(Instant NGP)。应用场景:产生的应用场景:产生的3D3D模型可以应用于虚拟现实、数字双胞胎或者模型可以应用于虚拟现实、数字双胞胎或者机器人技术等领域。机器人技术等领域。图表:图表:Magic3DMagic3D的文生的文生3D3D功能功能20222022年年9 9月月英伟达发布英伟达发布GET3DGET3D模型模型具备能力:能快速生
69、成虚拟世界的对象,可生成具有高保真纹理和复杂几何细节的3D形状,还可以做到文本引导形状生成。模型概述:过程分为几何分支和纹理分支两部分,前者可输出任意拓扑的表面网格,后者产生纹理场应用场景:将生成模型导入到游戏引擎、应用场景:将生成模型导入到游戏引擎、3D3D建模器和电影渲染器中建模器和电影渲染器中进行编辑进行编辑;使用英伟达的另一个;使用英伟达的另一个AIAI工具工具StyleGANStyleGAN-NADANADA,可以使用,可以使用文本提示为文本提示为3D3D图像添加特定的风格图像添加特定的风格图表:生成模型具有相同纹理,不同形状图表:生成模型具有相同纹理,不同形状3D3D内容编辑内容编
70、辑、文生、文生3D3D文生文生3D3D3.3.1 3.3.1 大厂的大厂的3D3D生成探索生成探索-英伟达:挖掘芯片的英伟达:挖掘芯片的3D3D应用领域应用领域33资料来源:新智元,三次方AIRX,方正证券研究所英伟达英伟达20232023年年8 8月发布月发布NeuralangeloNeuralangelo模型源代码模型源代码具备能力:将任何设备拍摄的视频转化为高度详细的3D结构,实现对现实世界中建筑、雕塑以及其他物体或空间的完全复制,保留细节的同时实现更为精确的3D结构恢复;模型概述:将多分辨率3D哈希网格的表示能力与神经表面渲染相结合;应用场景:产生的应用场景:产生的3D3D模型可以应用
71、于虚拟现实、数字双胞胎或者模型可以应用于虚拟现实、数字双胞胎或者机器人技术等领域。机器人技术等领域。英伟达在英伟达在SIGGRAPHSIGGRAPH大会上率先展示了基于大会上率先展示了基于AIAI的的3D3D技术技术具备能力:AI 3D自拍、实时3D头像,换各种卡通脸,使用头部跟踪显示;3D视频会议模型概述:关键技术包括3D提升、NeRFs等;应用场景:主要通过应用场景:主要通过AIAI技术降低成本技术降低成本,使用普通摄像头就可以实现使用普通摄像头就可以实现3D3D重建和渲染重建和渲染,提供高保真的提供高保真的3D3D交互体验。交互体验。图表:图表:Neuralangelo Neuralan
72、gelo 生成复杂细节和纹理的生成复杂细节和纹理的3D3D结构结构图表:图表:SIGGRAPH 2023SIGGRAPH 2023大会英伟达演示大会英伟达演示视频转视频转3D3D视频转视频转3D3D3.3.1 3.3.1 大厂的大厂的3D3D生成探索生成探索-英伟达:挖掘芯片的英伟达:挖掘芯片的3D3D应用领域应用领域34资料来源:CVer,三次方AIRX,方正证券研究所谷歌谷歌20222022年年1010月发布月发布DreamFusionDreamFusion模型模型具备能力:可以在任意角度、任意光照条件、任意三维环境中基于文本提示生成模型,整个过程既不需要3D训练数据,也无需修改图像扩散模
73、型模型概述:使用预训练2D扩散模型生成二维图像,通过梯度下降法优化神经辐射场NeRF模型应用场景:产生的应用场景:产生的3D3D模型可以应用于虚拟现实、数字双胞胎或者机器人技术等领域。模型可以应用于虚拟现实、数字双胞胎或者机器人技术等领域。20222022年年9 9月月谷歌谷歌“LOLNeRF”“LOLNeRF”研究结果研究结果具备能力:从 2D 图像中的多个点估计 3D 空间中每个点的颜色和密度,从图像生成 3D 模型的“LOLNeRF”具有更高的精度。模型概述:使用预测的二维landmarks将数据集中的图像大致对齐到典型的姿态,对于生成模型部分,采用自解码器框架应用场景:可以通过从汽车、
74、人类等对象集合中提取特征来学习应用场景:可以通过从汽车、人类等对象集合中提取特征来学习3D 3D 结构脸和猫。每个感兴趣的对象只需要一张图像结构脸和猫。每个感兴趣的对象只需要一张图像,不需要,不需要对同对同一个对象进行两次训练一个对象进行两次训练图表:从一张图来生成图表:从一张图来生成3D3D模型模型文生文生3D3D图生图生3D3D3.3.2 3.3.2 大厂的大厂的3D3D生成探索生成探索-谷歌:首批文生谷歌:首批文生3D3D的实现者的实现者35资料来源:学术头条,CG世界,方正证券研究所MetaMeta20232023年年3 3月,月,MetaMeta提出提出MakeMake-A A-Vi
75、deo3DVideo3D具备能力:完成由文本或者图像到 4D(3D+时间)应用的转换模型概述:运用 4D 动态神经辐射场(NeRF),通过查询基于文本到视频(T2V)扩散的模型,优化一致性。应用场景:是第一个基于文本描述生成应用场景:是第一个基于文本描述生成 3D 3D 动态场景的方法,可动态场景的方法,可以为视频游戏、视觉效果或以为视频游戏、视觉效果或 AR/VR AR/VR 生成动画生成动画 3D 3D 资产资产20222022年年1010月月展示全身编码器化身展示全身编码器化身Codec Avatars 2.0Codec Avatars 2.0具备能力:只需用智能手机从不同角度扫描人脸再
76、进行各种表情的扫描,几个小时就能生成精细的虚拟化身模型概述:基于已经训练过的Prior model 根据新的输入图像和深度数据来塑造一个定制化数字人应用场景:应用场景:数字虚拟人制作,多种模型的能力不断提高,为数字虚拟人制作,多种模型的能力不断提高,为MetaMeta元元宇宙奠定基础。宇宙奠定基础。图表:图表:MAV3DMAV3D直接实现文字生直接实现文字生4D4D图表:图表:iPhone iPhone 扫描扫描实现实现VRVR化身化身文生动态文生动态3D3D扫描得扫描得3D3D3.3.3 3.3.3 大厂的大厂的3D3D生成探索生成探索-MetaMeta:推进推进元宇宙的实现元宇宙的实现36
77、资料来源:新智元,机器之心,方正证券研究所OpenAIOpenAI20232023年年5 5月,月,OpenAIOpenAI发布发布ShapShap-E E模型模型具备能力:相比基于点云的显式生成模型Point-E,收敛速度更快,在更高维的表示输出空间中实现了更好的样本质量模型概述:训练编码器来生成隐式表征+在编码器产生的潜表征上训练扩散模型应用场景:生成同时表示应用场景:生成同时表示 NeRF NeRF 和网格的和网格的 INRINR,允许它们以多种,允许它们以多种方式渲染或导入下游方式渲染或导入下游 3D 3D 应用应用20222022年年1212月月OpenAIOpenAI发布发布Poi
78、ntPoint-E E具备能力:产生3D点云,或代表三维形状的离散数据点集合模型概述:文本对图像模型+图像对三维模型。图像对三维模型被输入一组与三维对象配对的图像,在两者之间进行转换。应用场景:应用场景:PointPoint-E E的点云可以用来通过的点云可以用来通过3D3D打印制造现实世界的物打印制造现实世界的物体。有了额外的网格转换模型,并且更光滑以后,系统也可以找到体。有了额外的网格转换模型,并且更光滑以后,系统也可以找到进入游戏和动画开发工作流的切入点进入游戏和动画开发工作流的切入点图表:图表:ShapeShape-E E和和PointPoint-E E生成效果对比生成效果对比图表:图
79、表:PointPoint-E E点云生成结果点云生成结果文生文生3D3D文生文生3D3D3.3.4 3.3.4 大厂的大厂的3D3D生成探索生成探索-OpenAIOpenAI:丰富丰富“文生文生XX”XX”模式模式37资料来源:XR基地,快科技,AR酱,AR圈,方正证券研究所整理AppleApple图表:图表:Object CaptureObject Capture在在IOSIOS上的演示上的演示扫描得扫描得3D3D3.3.5 3.3.5 大厂的大厂的3D3D生成探索生成探索-AppleApple:打造:打造“3D“3D-AR”AR”生态的软硬件体系化生态的软硬件体系化WWDCWWDC 201
80、72017大会大会WWDC 2018WWDC 2018大会大会WWDC 2019WWDC 2019大会大会WWDC 2020WWDC 2020大会大会WWDC 2021WWDC 2021大会大会WWDC 2022WWDC 2022大会大会WWDC 2023WWDC 2023大会大会发布发布ARKitARKit框架框架帮助开发者在Apple生态下进行AR应用的开发,提供可以识别平面以及跟踪设备移动情况的能力为为ARAR创作提供创作提供“USDZUSDZ”的文”的文件格式件格式在原有在原有QuickQuickLookLook的基础上的基础上推出推出ARARQuickLookQuickLookARK
81、itARKit得到增得到增强强发布专门用于发布专门用于ARAR场景的渲染场景的渲染引擎引擎RealityRealityKitKit配套的配套的3D3D内容内容生产工具:生产工具:RealityConverRealityConverterter和和RealityComposRealityComposARKitARKit更新更新LidarLidar摄像头摄像头在一些设备在一些设备上增加上增加推出推出RealityRealityConverterConverter新版新版AppleAppleMapMap推出推出3D3D街街景景iOS15iOS15为苹果地为苹果地图带来全新图带来全新ARAR导航功能导
82、航功能RealityKit2RealityKit2发发布布推出了推出了Object Object CaptureCapture计划计划推出推出RoomRoomPlanPlan,可可创建房创建房间的间的 3D 3D 平面平面图图发布首个空间发布首个空间计算设备计算设备VisionVision ProPro,搭载搭载vision vision OSOS系统,使用系统,使用完全完全3D3D的界面的界面。iOS 17iOS 17也将支也将支持持Object Object CaptureCapture生成生成具备能力:在3D-AR的软硬件生态领域,布局多年。软件方面,推出文件格式USDZ,渲染平台Rea
83、lityKit、3D文件转换器Reality Converter等;硬件方面,搭载Lidar摄像头、即将推出的Vision Pro空间计算设备等。应用场景:用更加简便地方式创造和编辑现实转化的应用场景:用更加简便地方式创造和编辑现实转化的3D3D资产,将资产,将3D3D与日常应用相结合,适用于与日常应用相结合,适用于AR/MRAR/MR的构建。的构建。四、文生3D成本测算:迭代次数万级以上39资料来源:Stable Diffusion,方正证券研究所整理4.1 2D4.1 2D生成需迭代约生成需迭代约2020-5050次次以以2D2D为例,迭代次数越多,生成质量越高,对象越复杂。一般情况下,为
84、例,迭代次数越多,生成质量越高,对象越复杂。一般情况下,2D2D场景迭代场景迭代2020-5050次左右即可实现要次左右即可实现要求。求。根据我们实机测试,利用RTX 3090显卡,在Stable Diffusion中,同一指令来生成的3组2D图片发现:2D模型的迭代速度约为每秒2.1次-4.1次迭代,且速度边际提升。图表图表:同一指令不同迭代数和迭代时间同一指令不同迭代数和迭代时间5步迭代,花费2.41秒,速度:2.1次迭代/s20步迭代,花费5.7秒,速度:3.5次迭代/s50步迭代,花费12.2秒,速度:4.1次迭代/s40资料来源:方正证券研究所整理4.2 4.2 3D3D资产算力资产
85、算力-生成时间约生成时间约3 3-4 4小时小时/个个采用采用3D3D模型模型Zero123Zero123,单场景,单场景3D3D资产生成需要迭代资产生成需要迭代3000030000次左右,在次左右,在RTX 3090RTX 3090显卡(显卡(24GB24GB)上运行约)上运行约3.33.3-4.24.2小时小时。根据我们实机测试的结果,在Zero123算法下,设定迭代30000次时生成的3D成品相对可行。文生图模型的过程首先经过文生图片过程(时间几乎可以不计),再通过生成的新视角图片利用NeRF模型生成3D资产。利用3090显卡(24GB)且显存使用率约50%(即12GB左右)时运行文生3
86、D模型,对处理过的单场景图片,根据测算,每秒迭代次数约2.35次。总优化时间(小时)总优化时间(小时)=迭代次数迭代次数/每秒迭代次数每秒迭代次数/60seconds/60minutes/60seconds/60minutes。对于需要迭代30000次的单场景来说,生成一个3D模型需要3.3-4.2小时。图表图表:不同迭代数和迭代速度下算力时间花费不同迭代数和迭代速度下算力时间花费每秒迭代数每秒迭代数(次)(次)单场景不同迭代次数下所需单场景不同迭代次数下所需GPUGPU(30903090)小时数)小时数2500030000350004000016.9 8.3 9.7 11.1 1.54.6
87、5.6 6.5 7.4 23.5 4.2 4.9 5.6 2.52.8 3.3 3.9 4.4 32.3 2.8 3.2 3.7 3.52.0 2.4 2.8 3.2 41.7 2.1 2.4 2.8 41资料来源:sketchfab,方正证券研究所4.3 3D4.3 3D资产算力资产算力-生成成本约生成成本约5 5元元/个个图表图表:A100:A100训练下需要的算力成本计算训练下需要的算力成本计算使用使用RTX 3090RTX 3090显卡在显卡在Zero123Zero123模型下迭代模型下迭代3000030000次,生成一个次,生成一个3D3D资产的算力成本约资产的算力成本约5 5元左右
88、。元左右。若在RTX 3090上运行文生图3D模型Zero123,按照RTX 3090显卡每小时1.39元租金计算,若每秒迭代2.25次,需要迭代30000次,则3D资产算力成本=5.15元(30000次/2.25次/s/60min/60sec*1.39元/hour)。未来未来随着模型的发展成熟,假设迭代随着模型的发展成熟,假设迭代速度变速度变快到当前常规水平的快到当前常规水平的2 2倍,在倍,在30903090显卡生成一个显卡生成一个3D3D资产算力花费约资产算力花费约2.62.6元左右元左右。文生文生3D3D资产算力成本远远低于市场资产算力成本远远低于市场3D3D资产购买价格,具有价格优势
89、。资产购买价格,具有价格优势。在3D模型的在线内容库sketchfab上,即使简单难度的3D资产所需要的时间在2-15小时左右,购买费用在3-40美元区间,远远大于AI+3D生成成本。3D3D模型复杂性模型复杂性大概费用大概费用所需时间所需时间(小时)(小时)最便宜3美元2简单2中等15复杂40非常复杂650美元50图表图表:sketchfab:sketchfab平台售卖平台售卖3D3D资产信息资产信息情景情景每秒迭代次数每秒迭代次数(次(次/s)单场景不同迭代次数下所需算力成本(元单场景不同迭代次数下所需算力成本(元)25000300003500040000当前速度下2.00 4.83 5.
90、79 6.76 7.72 2.25 4.29 5.15 6.01 6.86 2.50 3.86 4.63 5.41 6.18 速度变快2X4.00 2.41 2.90 3.38 3.86 4.50 2.15 2.57 3.00 3.43 5.00 1.93 2.32 2.70 3.09 投资建议及风险提示五五、投资建议投资建议:3D对VR/AR游戏品类的影响:MR游戏,建议关注宝通科技、恺英网络、恒信东方;3D对美术密集型品类的影响:开放世界游戏,建议关注网易;动画产业,关注光线传媒、奥飞娱乐;3D对一般3D游戏公司的影响:3D游戏,建议关注2022年三季度低基数的三七互娱、姚记科技、凯撒文化、星辉娱乐:其他优质游戏公司如吉比特、神州泰岳、盛天网络、巨人网络、游族网络、完美世界。六六、风险提示风险提示:技术发展不及预期,产业推进不及预期,法律及道德风险。42分析师声明与免责声明43评级说明44方正证券研究所上 海 市 静 安 区 延 平 路 7 1 号 延 平 大 厦 2 楼深圳市福田区竹子林紫竹七道光大银行大厦31层广州市天河区兴盛路12号楼隽峰院2期3层方正证券北 京市 西城区 展览 路 4 8 号新联 写字 楼6 层长沙市天心区湘江中路二段36号华远国际中心37层专注 专心 专业45