《AIGC行业专题报告:从文生图到文生视频~技术框架与商业化-231102(73页).pdf》由会员分享,可在线阅读,更多相关《AIGC行业专题报告:从文生图到文生视频~技术框架与商业化-231102(73页).pdf(73页珍藏版)》请在三个皮匠报告上搜索。
1、证券研究报告国海证券海外SEALAND SECURITIES2023年11月2日AIGC专题报告:从文生图到文生视频技术框架与商业化评级:推荐(维持)尹芮(证券分析师)陈梦竹(证券分析师)S0350521090003S#page#尚国海证券相关报告最近一年走势从Roblox进化看AIGC游戏未来一Roblox(RBLX.N)深度复盘:二十年沉60%淀,四阶段演绎(增持)*海外*杨仁文,马川琪,陈梦竹,姚蕾-2023-50K09-24创新奇智(02121)动态研究报告:业绩维持高速增长,“AI+制造”赋能-2023-09-14长期发展(买入)*IT服务I*陈梦竹30%20%商汤-W(00020)
2、2023H1业绩点评:生成式AI有望成为业务新驱动,整体亏损收窄(增持)*IT服务l*陈梦竹-2023-09-08网易-S(9999.HK)公司动态研究:利润超预期,新游表现强劲,期待后续业绩释放(买入)*游戏*陈梦竹,尹芮2023-09-03焦点科技(002315)2023H1财报点评:业务调整拖累营收增速,利润端80-60-8ZOZ-图审网互(V)斗证话港股互联网指数恒生指数相对恒生指数表现(%)表现1M3M12M-8.6014.7950.09港股互联网-5.72-10.231.47恒生指数请务必阅读报告附注中的风险提示和免责声明#page#核心提要武国海证券ALANDSECURITIE1
3、、底层模型技术框架梳理文生图和文生视频的底层技术框架较为相似,主要包括GAN、自回归和扩散模型三大路径,其中扩散模型(Difusionmodel)为当前主流生成模型,多个指标对比下综合占优,能在较为可控的算力成本和较快的速度下生成具备多样性、高质量的图像:图像质量:扩散模型自回归模型GAN模型。FID值(FrechetInceptionDistancescore)是用于评估模型生成的图像质量的指标,是用来计算真实图像与生成图像的特征向量间距离的一种度量。FID值越小,可以认为图像质量在一定程度上越优。从不同模型的FID得分来看,扩散模型平三2+理日回“2+喜务面“I独森“士理确一再NVO在NV
4、O扩散模型自回归模型。生成速度与参数量级为负相关关系。4训练成本:自回归扩散模型GAN模型。由于参数量级较小,GAN模型训练成本小且开源模型多,仍具备一定优势。而自回归模型参数量级较大,整体训练成本更高。在单张A100GPU下,120亿参数的DALL-E需要18万小时,200亿参数的Parti更是需要超过100万小时,扩散模型参数量在十亿级别,整体训练成本较为适中。2、商业化模式及成本拆分文生图商业化模型:当前主要的商业化方式包括基于GPU时间/生成次数/API接口调用/个性化定价等方式。根据我们调研,以Midjourney为例,单张图片生成成本约0.03-0.04美金,单张收入约0.05美金
5、,毛利率约30%40%,净利率约20%。文生图领域整体创业门槛低于大语言模型:模型层看:图像生成领域已有生成质量较高的开源预训练模型StableDiffusion,且SD具有较为丰富的开发者生态,有许多插件供选择。创业公司可基于StableDiffusion基础版本进行进一步调优和个性化数据训练。2成本端看:从主流模型参数规模看,文生图参数量级多在1-10B之间,而通用大模型入门级门档达到了70B,文生图整体参数量级较小,成本远低于通用大模型。通过调研文生图初创公司:实际小团队利用开源模型,初期在用户不到1万情况下甚至无需购买A100,通过购买RTX30140系列、IBS3060(50001w
6、/张)也可以启动。我们对文生图推理算力需求也进行了测算,以10亿级参数量的模型、在100万DAU的用户量级为例,若想控制单次推理延退时间,需部署约143张A100,整体芯片算力需求低于大语言通用模型。文生图商业模式仍存疑问,长期竞争需要技术+产品+场景能力结合突破:1对于垂类AI应用:短期看头部应用通过技术/产品/成本/数据等优势突破,在C端率先开启变现,长期看针对垂类场景C端天花板相对明确,搭建工程化能力可技术输出到B端场景,探索更多变现可能。2对于现有应用叠加AI功能:短期通过AI功能引入提升产品体验和用户粘性;长期看基于现有高频场景,用户壁垒更强、不易流失,用户ARPU和付费率有望提升。
7、3、文生图代表模型及应用看Midjourney、Adobe和StableDiffusion综合较优,OpenAl最新升级DALL-E3模型将与ChatGPT集成,多模态交互能力持续提升,有望带来新的场景突破。中鲜“舞其回“用型线上生#里到我图一用的照“面#化书甲藏区不商等多个行业均开启应用,实现降本增效,长期有望进一步打开商业化空间。我们看好AI多模态行业投资机会,维持行业“推荐”评级,建议关注微软、Meta、Adobe、谷歌、百度、阿里巴巴、美图、万兴科技、新国都等相关标的5、风险提示:竞争加剧风险、内容质量不佳风险、用户流失风险、政策监管风险、变现不及预期风险、估值调整风险等。请务必阅读报
8、告附注中的风险提示和免责声明#page#page#报告目录酒国海证券EALANDSECURITIE主流商用文生图模型效果对比:综合看Midjourney和Adobe相对领先OpenAI:先后推出自回归和扩散图像模型,最新发布DALL-E3谷歌:先后推出基于扩散模型的imagen和基于自回归模型的PartiMeta:公布基于自回归的模型CM3Leon,生成质量她美主流扩散模型Midljourney:基于扩散模型的文生图龙头,用户规模超干万StabilityAl:发布StableDiffusion开源模型StabilityAl:最新发布SDXL1.0开源版本,图像生成能力进一步提升Clipdrop
9、被StabilityAl收购,融入多项AI功能图像处理能力优秀,数据显著增长AdobeFirefiy:与Adobe旗下图像编辑软件结合,具备较强可编辑性百度:理解生成筛选三步走,不断优化文心一格的文生图效果万兴科技:持续加码AIGC,万兴爱画升级,Pixpic落地美图:着手布局B端市场,官宣自研视觉大模型,美图AI产品生态初步形成美图:产品测评妙鸭相机:多模板A写真相机,新晋爆款产品,但成熟度仍待提高新国都:PicSo在海外率先上线,营收占比较小二、文生视频代表模型及应用.清华CogVideo:首个开源的中文文本生成视频模型,基于自回归模型文生图推理算力需求测算微软:NUWA系列从自回归到扩散
10、模型,视频生成长度增加谷歌Phenaki:首个可生成长视频的自回归模型谷歌ImagenVideo:应用级联模型和渐进式蒸馅加速提升视频质量MetaMake-A-Video:创新采用无监督学习,加速模型训练字节跳动MagicVideo:平滑视频剪辑助力商业应用NVIDIA:侧重扩散模型,实现高质量视频合成Zeroscope:拥有较高质量输出的中国开源模型RunwayGen-1:基于潜在扩散模型,助力商用发展RunwayGen-1&Gen-2:商用文生视频的明星应用Synthesia:海外领先的AI视频应用,已开启商业化Lumen5:可将文本转化为视频,自动生成对应的场景和角色请务必阅读报告附注中
11、的风险提示和免责声明#page#酒国海证券EALANDSECURITIE底层模型技术框架梳理请务必阅读报告附注中的风险提示和免责声明#page#文生图:基于文本生成图像,StableDiffusion开源后迎来快速发展国海证券文生图(Text-to-lmage)是基于文本通过生成式AI生成图像的模式。近3年时间,文生图的技术已实现大幅的进步,海外的StableDiffusion、Midjourney已经能够提供较高质量的图像,国内的万兴科技的万兴爱画、百度的文心一格也投入商用。文本生成图像的底层模型可以分为GAN、扩散模型、自回归模型三类。目前行业内的明星模型主要基于扩散模型。海内外主要文本生
12、成图像模型大事件论文模型海外商业应用OpenA发布第Stablepiffusion论文发布一代绘图工具法律法规OpenAI发布第二代绘图工具DALLE论文;NvidiaNvidiaStabilityA开DAL-E2;Google发布发布GauGAN2发布GaUGANStableXMC-GANGoogle发布partiDiscoDifusionOpenA发布模型GUDE欧洲议会通过发布Midjiourney推出;人工智能法案DiscoDifusionMeta发布Make-A-(AAct)草案Google发布文发布5cene文Image2021年11月2022年11月+2023年7月2022年8月
13、2023年3月2023年6月2019年3月2021年10月2021年5月2022年6月2021年1月2022年3月2022年4月阿里云宣布推出2022年5月百度发布清华发布通义万相AI绘画ERNIE-VILG2.0CoRVie大模型万兴科技A绘清华发布画开启公测CoEview2美图发布AI视觉大模型百度发布文心AiracleVision格百度发布ERNIE-国家网信办联合国家发展WLG改革委、教育部、科技部工业和信息化部、公安部广电总局公布生成式人工智能服务管理暂行办法国内逐渐成熟:扩散模型占据主流探索阶段:GAN、自回归生成并行2021年2022年至今新智元,智元社区,百度官网证券时报,新间
14、客户端,界面新间,百请务必阅读报告附注中的风险提示和免责声明#page#page#生成技术路径:从GAN到Diffusion,模型持续优化选代国海证券ALANDSECURITIE生成式对抗网络(GAN)自回归模型扩散模型式拟合出Transformer:整体主要分为Encoder和Decoder两大的函数,给定输入,负责生成整个GAN所需的输出通过对纯高斯噪声反向降噪推断来生成图像结构判别器(Discriminator):生成器将抓取数据、产生新的生成数据,并将其混入原始数据通过编码器将文本转化成token或序列,应用自回归预测,定义一个扩散步感的马尔可夫链,逐渐向数据添加随机媒声,经过训练好的
15、模型解码输出图像然后学习逆扩散过程,从噪声中构建所需的数据样本超过50%的准确度分辨出真实样本运行原理得训练难以收敛。近期突破思路有RelativisticGAN。有别于真”的概率,使得GAN获得了更好的收敛性存在问题生成样本大量重复相似:模式明场被认为是应用GAN进行图计算消耗过大:蕴含多个(原始模型可能要上千个)前向传播,它会造成训练结果兄余、生成数据进行训练,尤其在文本生成视频的训练中,目前缺国像质量差、样本单一等问题。近期突破性思路有包含两个判过程,对显卡硬件需求大,计算较高质量的文本-视频对是文生视频自回归模型的一大难题别网络的D2GAN训练方式改进:知识蒸馆促进模型压缩和加速,改进
16、扩散过程结构改善:将GAN与机器学习中最新的理论成果进行交叉训创新生成模式:改进图像生成的方式,比如在视频生成降低预测误差练,引入迁移学习、强化学习等,使GAN与计算机图形学等过程中,从“逐像素”改进至逐就生成,减少计算量技术更好地融合,推动结构的改善无训练采样:以更少的步骤和更高的精度从预训练的模型中获取知识改进混合模型改进:在扩散模型的中加入额外生成模型,以利用其方向模型压缩:目前图像生成技术想要落地,势必要根据需求调整他模型的高采样速度提升数据质量:在文本生成视频中,联合文本-图像对进模型的大小,结合基于“知识蒸饰”的模型压缩方法,进行四行训练,规避因为文本-视频对不足的劣势分数与扩散统
17、一:确定扩散模型和去燥分数匹配之间的联系,配需求的优化和压缩,从而内嵌入小型软件中,拓宽应用领有助于统一广义扩散的加速方法StackGAN+、DF-GANDALL-E、CogViaw、CogView2、Parti、CM3leon StableDifuslon、GLDE、DALL-E2图像Video Difusion Model、Make-A-Video.ImagenVGAN、TGAN、VideoGPT、MoCoGAN、DVD-GAN视频CogVideo.GODIVA.NUWA.PhenakDIGANText2Video-Zero、VideoLDM、PYoCo商用现频:Runway资料来源:论文
18、见附录,国海证券研究所请务必阅读报告附注中的风险提示和免责声明9#page#文生图模型竞争格局A国海证券国内海外文心一格万兴爱画DALLE2MidjourneyAI艺术和创意辅助平台门本A!AdobeEE应用WHEEA视觉创作的灵感激发器CClipdrop by stability.aiFirefly限通你通义万相PTIAMATR runwaydreamstudio.ioDALL-E、CogView、Stable DiffusionsGLIDE、StackGAN+、DF-GAN代表模型DALL-E2CogView2、Parti、CM3leon底层架构自回归模型扩散模型GAN(生成式对抗网络)资
19、料来源:各公司官网,国海证券研究所请务必阅读报告附注中的风险提示和免责声明10#page#人工智能监管:中欧美均发布相关条例,引导生成式AI规范发展国海证券人工智能主要发展地区的监管发展时间地区法律、法规及监管条例发布主要内容提出了建立安全和有效的系统、避免算法歧视,以公平方式使用和设计系统、美国2022年10月美国白宫发布人工智能权利法案蓝图保护数据隐私等五项基本原则,且将公平和隐私保护视为法案的核心宗冒,后续拟围绕这两点制定完善细则。鼓励用户全面规划人工智能系统,包括预期的商业目的和使用人工智能可能造成的潜在危害。要求有道德的人工智能从业者确定如何以定量和定性的方式衡美国商务部下属机构美国
20、国家标准与技术研究院(NIST)美国2023年1月量人工智能系统所产生的影响。组织将使用测量的结果来帮助其持续管理人工智能系统:RMF框架为用户提供了管理已部署人工智能系统风险的工具,并根据评估的风险和风险优先级分配风险管理资源。全球范围内首部系统化规制人工智能的法律,草案提出对人工智能采取分级管理的思路,基于人工智能的四个风险等级(从低风险或无风险、有限风险、高欧洲欧洲议会通过人工智能法案(AlAct)草案2023年6月欧盟法律和基本权利。国家网信办联合国家发展改革委、教育部、科技部、工业和提出国家坚持发展和安全井重、促进创新和依法治理相结合的原则,采取有效中国2023年7月信息化部、公安部
21、、理暂行办法类分级监管,明确了提供和使用生成式人工智能服务总体要求。资料来源:中国网信网,全球技术地图,A时代前沿,国海证券研究所请务必阅读报告附注中的风险提示和免责声明11#page#GAN:通过生成器和判别器对抗训练提升图像生成能力国海证券山ALANDSECURITIEGANs(GAN,GenerativeAdversarialNetworks),生成对抗网络是扩散模型前的主流图像生成模型,通过生成器和判别器进行对抗训练来提升模型的图像生成能力和图像鉴别能力,使得生成式网络的数据趋近真实数据,从而图像趋近真实图像。GAN常见的模型结构单级生成网络:代表有DF-GAN等。只使用一个生成器、一
22、个鉴别器、一个预训练过的文本编码器,使用一系列包含仿射变换的UPBlock块学习文本与图像之间的映射关系,由文本生成图像特征。堆叠结构:多阶段生成网络,代表有stackGAN+、GoGAN等。GAN对于高分辨率图像生成一直存在许多问题,层级结构的GAN通过逐层次,分阶段生成一步步提生图像的分辨率。在每个分支上,生成器捕获该尺度的图像分布,鉴别器分辨来自该尺度样本的真假,生成器G1接收上一阶段的生成图像不断对图像进行细化并提升分辨率,并且以交替方式对生成器和鉴别器进行训练。多阶段GAN相比二阶段表现出更稳定的训练行为。(一般来说,GAN的训练是不稳定的,会发生模式倒最的现象modecollaps
23、e,即生成器结果为真但多样性不足)ariepiHdk正人员生成对抗网络实现文本生成图本编码器由RNN或者Bi-LSTM组成生成器可以做成堆叠结构或者单阶段生成结构,生成模型捕捉样本数据的分布,是来自生成模型,鉴别器用两者在对抗中,不断提升各自的能力,生成器逐渐提升生成图像的能力,生成图像的分布接近真实图像分布,从而提高判别器的判别能力,判别器对真实图像和生成图像进行stackGAN+的文字生成图片架构原理判别,来提高生成器的生成能力。GAN的特点:相比于其他模型,GAN的模型参数量较少,比较轻便,因此GAN擅长对单个或多个对象类进行建模。但由于训练过程的不稳定性,扩展GAN需要仔细调整网络架构
24、和训练因素,扩展到复杂数据集则极具挑战性,稳定性较差、生成图像缺乏多样性。来源:机器之心,StackGAN+:ReasticlKs(HanZhang等)ca.Syntn请务必阅读报告附注中的风险提示和免责声明12#page#page#自回归模型:采用Transformer结构中的自注意力机制尚国海证券EALANDSECURITIE自回归模型(Auto-regressiveModel)采用Transformer进行自回归图像生成。Transformer整体主要分为Encoder和Decoder两大部分,能够模拟像素和高级属性(纹理、语义和比例)之间的空间关系,利用多头自注意力机制进行编码和解码。
25、采用该架构模型的文生图通常将文本和图像分别转化成tokens序列,然后利用生成式的Transformer架构从文本序列(和可选图像序列)中预测图像序列,最后使用图像生成技术(VAE、GAN等)对图像序列进行解码,得到最终生成图像。经典自回归模型结合VIT-VQGAN:谷歌Parti将ViT-VQGAN作为图像标记器将图像编码结合VQ-VAE(矢量量化变分自动编码器):清华的CogView与百度的为离散标记序列(使用TransformerGPT-2作为编码生成工具),它将文ERNIE-ViLG均使用VQ-VAE+Transformer的架构设计。先将文本部本到图像的生成视为序列到序列的建模问题,
26、图像标记序列是目标输出,并分转换成token,然后将图像部分通过一个离散化的AE(Auto-Encoder)转利用其将此类图像标记序列重建为高质量、视觉多样化图像。首先将一组图换为token,将文本token和图像token拼接到一起,之后输入到GPT模型中像转换为一系列代码条目,类似于拼图,然后将给定的文本提示转换为这些学习生成图像。代码条目并拼成一个新图像。Input ToxtiThe he只可爱的小的头像电Transforwer(GPT)CogViea.n1.BABE1自回归模型的特点:1)相比于其他模型,自回归模型的稳定性及生成图像的逻辑相对合理。2)但计算效率总体较低,生成速度较慢,
27、训练成本相对较高,其实际应用受限于计算效率和训练成本相对不足,目前Meta发布的CM3leon在计算效率有较大的提高,优化了模型的计算速度。资科来源:HierarchicalText-Conglitith CLIPLaring Text请务必阅读报告附注中的风险提示和免责声明14#page#自回归模型:生成视频相比GAN更加连贯和自然尚国海证券EALANDSECURITIE与GANs相比,自回归模型具有明确的密度建模和稳定的训练优势,自回归模型可以通过幢与顿之间的联系,生成更为连贯且自然视频。但是自回归模型受制于计算资源、训练所需的数据、时间,模型本身参数数量通常比扩散模型大,对于计算资源要求
28、及数据集的要求往往高于其他模型,随着扩散模型的火热,自回归模型的热潮逐渐降低,基于文本生成图像的文本生成视频的热潮渐起。早期自回归模型:自回归模型现状:高质量生成生成质量差中期自回归模型:生成质量提成本高升,生成规模增大训练成本降低早期的视觉自回归模型如随后,VQ-VAE作为一种离散后续,出现利用预先训练的文以“逐像素的方式进行视觉视觉标记化方法的出现,高效本到图像模型来生成高质量的合成。然而,其只能应用于低和大规模的预训练可以应用于视频的方法,视频被视为图像分辨率图像或视频,并且难以的时间序列,这减少了视频图像和视频的视觉合成任务。放大,是因为模型高维视觉数token的数量,并降低了训练成据
29、上的计算成本很高本。但这可能导致动力学建模不佳并产生运动伪影。模型代表:PixelCNN模型代表:GODIVA、模型代表:NUWA.PixelRNN,VideoGPTImageCogVideo、PhenakiTransformer,iGPT和Video Transformer科来源NUwA:V请务必阅读报告附注中的风险提示和免责声明15#page#扩散模型:当前主流路径,通过添加噪声和反向降噪推断生成图像国海证券山EALANDSECURITIE扩散模型(DiffusionModel)是通过定义一个扩散步骤的马尔可夫链,通过连续向数据添加随机噪声,直到得到一个纯高斯噪声数据,然后再学习逆扩散的过
30、程,经过反向降噪推断来生成图像,通过系统地扰动数据中的分布,再恢复数据分布,逐步优化过程。扩散模型在图像生成应用结合CLIP:比如DALLE-2,采用DiffusionModel结合CLIP,CLIP文本嵌入首先被馈送到自回归或扩散先验以产生图像嵌入,然后该嵌入用于调节扩散解码器,后由扩散解码器产生最终图像(x:|x-1)结合潜在空间(LatentSpace):StableDiffusion将模型应用于预训练自动编码Figure2:The direced graphical modelconsideredin this work.器的潜在空间(LatentSpace),这使得扩散模型的训练能够
31、在一个有限的计算资源的环境下进行,并且能够保持图像的质量和灵活性。LatentDiffusionModels通过在一个潜在表示空间中送代“去噪”数据来生成图像,然后将表示结果解码为完整的图像,让文图生成任务能够在消费级GPU上,在10秒级别时间生成图片,大大降低落地门槛。“acorgplaying afamethrowing现trumpetecodepio扩散模型的特点:1)相比先前的模型,扩散模型在训练稳定性和结果准确性能力提升明显,替代了GAN成为目前主流模型。2)当应对大量跨模态图像生成的需求,通过结合CLIP能够实现图像生成速度和质量的显著提升,生成的图片具有较好的多样性和写实性。3)
32、相比于其他模型,扩散模型有较强的表现及相对中等的计算成本。请务必阅读报告附注中的风险提示和免责声明16#page#国海证券(Jopoouxol)器警甲“醒图一本或区素区士看者(bulule-oldobgul-obenbueoAnsbyuoo)dIO图像编码器(ImageEncoder)组成,编码器分别对文本和图像进行特征提取,将文本和图像映射到同一表示空间,通过文本-图像对的相似度和差异度计算来训练模型,从标签文本创建数据集分类器,从而能够根据给定的文本生成符合描述的图像。(1)Co预训练模型:预先在数据量庞大的代表性数据集上训练模型,当迁移到自定义的数据中,通过权重和偏差调优后,使模型达到需
33、要的性能。预训练模型能够节省从零开始的高品时间成本和计算成本,降低模型对标注数据数量的要求,能够处理一些难以获得大量标注数据的场景。CLIP的特点优点:由于CLIP完成了基于多模态的对比学习和预训练,在过程中已经将文本特征和图像特征进行对齐,该模型无需事先标注数据,减少了标注数据的工作量及对应成本,能够在零样本图像文本分类任务中高质量运行。缺点:1)CLIP在包含时间序列数据和需要推理计算的任务中由于模型本身的局限性,生成图像的效果不佳。2)CLIP的训练效果依赖大规模的文本-图像对数据集,对训练资源的消耗比较大,CLIP是由OpenAI团队通过4亿对图像-文本对训练后提出的。贸料来源:比特资
34、讯,NvidiaDevelper,机器之心,Improving LanguageUnderstandingby Gener请务必阅读报告附注中的风险提示和免责声明17IMod#page#扩散模型:当前也为文生视频主流技术路径国海证券尚EALANDSECURITIE当前主要的文本到视频模式主要采用基于扩散的架构,由于扩散模型在图像生成方面的成功,其启发了基于扩散模型的视频生成的模型。VideoDiffusionModel的提出标志着扩散模型在视频生成领域的应用,该模型将扩散模型拓展到视频领域。经典扩散模型在视频生成领域应用梳理组织模型名称发布时间生成方式视频扩散模型(VideoDiffusion
35、Model)是标准图像扩散架构的自然延伸,是首个将扩散模型延展到Google2022.04Video Difusion Model视频生成领域的模型,模型支持图像和视频数据的联合训练,这能够减少小批量梯度(Varianceofminibatch)的方差并加快优化,生成长和更高分辨率的视频。Make-A-Video通过时空分解扩散模型将基于扩散的T2模型扩展到T2V,利用联合文本-图像先验来Meta2022.09Make-A-VideoImagen VideoGoogle2022.10单性和有效性,文本生成图像设置中的冻结编码器文本调节和无分类器指导转移到视频生成仍具有有效Tune-A-Vide
36、o是第一个使用预训练T2模型生成T2V的梅架,引入了用于T2V生成的一次性视频调Tune-A-Video新加坡国立大学、腾讯2022.12高时间一致性Gen-1将潜在扩散模型扩展到视频生成,通过将时间层引入到预训练的图像模型中并对图像和视频进行Gen-1Runway2023.02联合训练,无需额外训练和预处理Dreamix提出了第一个基于文本的真实视频外观和运动编辑的方法,通过一种新颖的混合微调模型,可Google2023.02Dreamix“解性习事,断Y“cB(uoIsnudjaAouosnwa)密.X-VMONNUWA-XL微软亚洲研究院2023.03Picsart AI Resarch
37、(PAIR)Text2Video-Zero提出零样本的文本生成视频的方法,仅使用预先训练的文本到图像扩散模型,而无UTAustin,UofOregon 2023.03Text2Video-Zero需任何进一步的微调或优化,通过在潜在代码中编码运动动力学,并使用新的跨慎注意力重新编程每个UiUC颜的自我注意力,强制执行时间一致的生成。VideoLDM提出了一种有效的方法用于训练基于LDM的高分解率、长期一致的视频生成模型,主要是英伟达2023.04MideoLDM利用预先训练的图像DM并将其转换为视频生成器通过插入学习以时间一致的方式对齐图像的时间层。PYoCo提出一种视频扩散噪声,用于微调文本
38、到视频的文本到图像扩散模型,通过用噪声先验微调预英伟达2023.05PYoCo训练的eDi-模型来构建大规模的文本到视频扩散模型,并实现最先进的结果。资料来源:论文见附录4,国海证券研究所请务必阅读报告附注中的风险提示和免责声明18#page#模型对比:扩散模型图像质量最优,自回归模型相对训练成本最高国海证券ALANDSECURITIE主要图像生成模型比较图像质量:扩散模型自回归模型GAN模型FID值(FrechetInceptionDistancescore)是用于评估模型生成的图像质量GAN模型扩散模型自回归模型图像质量良良的指标,是用来计算真实图像与生成图像的特征向量间距离的一种度量。如
39、果FID值参数量越小,则相似程度越高,可以认为图像质量在一定程度上越优。从不同模型的FID得生成速度分来看,扩散模型平均数较小,反应图像质量较高。中优易扩展性基于马尔可夫链的正向及反参数量:自回归模型扩散模型GAN模型生成器和判别器动态对Transfomer的多头自向扩散过程,未对图片进行GAN的参数量一般在千万级别,整体较为轻巧,扩散模型的参数量在十亿级别,自抗的特点,避免了马尔降维压缩,能够更加准确地注意力机制提升了生成回归模型在十亿到百亿级不等。优势原因科夫链式的学习机制,还原真实数据,对图像细节的稳定性,可以实现更无需在学习过程中进行的保持能力更强,具备多样大规模参数的模型训练推断生成
40、速度(由快到慢):GAN模型扩散模型自回归模型性和真实感生成速度与参数量级为负相关关系相比GAN生成质量较高,采样速度较快,灵活的优点生成的质量高生成分布更加均匀设计框架训练成本:自回归扩散模型GAN模型需要将图像转为token由于参数量级较小,GAN模型训练成本小且开源模型多,仍具备一定优势。而自回大量扩散步骤导致采样速度可解释性差,容易出现缺点进行自回归预测,采样归模型参数量级较大,整体训练成本更高。在单张A100GPU下,120亿参数的慢、模型成本较高模式剧渍速度慢、模型成本高DALL-E需要18万小时,200亿参数的Parti更是需要超过100万小时。扩散模型则较为适中。模型名模型类型
41、参数量级LAFITEMaeMdDifo25GLIDE扩散模型35话DitGANDALLE-2广散模型35亿10.39DALLE2中2037动方场34亿广散模型ImagencDi-1Re-lmagen散模型36亿15StyleGAN-TDALLE皖GLDEDALLE自回归模型120亿LDMvLO25011.8440亿Cogvie自回归模型10864Subke Di5012Cogview2自回归模型ImwgerOFEGP自回归模型200亿LAHTE室Parti3881520SgkGAN-T+DFGAN生成对抗网络0.19亿Time toimages资料来源:论文见附录,电脑学习网,回海证券研究所请
42、务必阅读报告附注中的风险提示和免责声明19#page#国海证券ALANDSECURITIE生成式学习框架有四个关键要素:样本高质量、样本多样和模式覆盖、低廉的计算成本和快速的计算能力,目前没有一个模型能够充分满足四个要素。高质量样本低廉的计算成本较快生成速度现状样本多样行和模式覆盖图片生成质量较高且速度尚可,具有较强的多样性V扩散模型VV(部分)目前是主流模型,但模型成本相较GAN仍然偏高。样本多样性和低廉计算成本难以同时满足,自回归模型先验的学习使用的是文本到中间离散表征的映射,V自回归模型难以同时满足难以同时满足X依赖于大规模数据集,导致其很难在低廉的计算成本下产生较为多样的样本。生成对抗
43、网络能够快速生成高质量样本且成本低,但模式覆盖率较VXVV(GAN)差,容易出现模式崩场。技术改进探索高质量样本低廉的计算成本OpenAI提出的全新图像生成模型ConsistencyModels,不仅能够解决扩散模型选代步骤多、采样速度慢的问题,并且无需对抗训练可以直接生成高质量样本,可以快速完成图像修复、图像超分辩率等多种图像任务,表现出了更强的应用潜力。Meta的CM3Leon采用了基于token的自回归模型方法,但计算量仅相当于以往基于Transformer方法生成学习四角的五分之一,因此既具备自回归模型的功能多样性和有效性,也保持着较低的训练成本和良好的推理效率。并获得了4.88的FI
44、D。GAN的潜力仍然存在:来自浦项科技大学(韩国)、卡内基梅隆大学和Adobe研究院的研究人员提出了一种全新的生成对抗网络架构GigaGAN,打破了模型的规模限制,在推理速度和图像生成效果方面展现了更好的性能,对应解决传统的GAN在增加架构容量导致的不稳定问题,可以看到GAN在图像编辑、图像转换较快生成速度样本多样性和模式覆盖等场景的应用潜力仍然存在。资料来源:稀土抵金,易观,新智元,36kr,论文见附录,国海证券研究所请务必阅读报告附注中的风险提示和免责声明20#page#文本生成视频模型仍存在许多技术难点,生成效果有待提升武国海证券缺少大规模、高质量的文本一视频对在文本生成图像的情景中,收
45、集高质量的文本-图像对是可能的,但是高质量的文本-视频对是稀缺的,许多数据库中的视频很少和文本强相关,并且许多只描述了场景而缺少时间信息。文本生成视频模型需要大量数据来学习字幕相关性、锁照片写实感和时间动态,但与丰富的图像数据资源相比,视频数据在样式、数量和质量方面受到更多限制。除此以外,视频片段的长度是不等的,为了训练将视频切成固定赖数的片段,会破坏文本和时间之间的“对齐情况(文本和时间信息不匹配),进而影响模型的训练。catonthegrass.full shot.classic高维度视频数据建模的复杂性视频生成除了考虑空间信息,还需要考虑时间信息,高质量的视频的生成需要更高强度的计算及复
46、杂的推理能力,在考量视频质量时,视频长度、通真度、连贯性目前还无法完全达到。被人眼识别为连贯的视频需要顿率为每秒24帧以上,目前在顿率上虽然技术有达到,但是图像质量和前后慎的逻辑联系等仍有待进一步改进。用户Prompt表达不确定性用户在进行文字描述(prompt)时,通常有个性化的用语和表达方式,模型对于文字描述的理解(prompt)会较大的影响生成,同时在此中,模型可能无法详细理解多主体交互关系、动作在时间轴上的演进、一词多义等。用户在表达时,可能会出现要素的缺失、描述核糊等情况,致使模型没有获得足够的信息进行生成,而产生用户预期与模型生成的差异。同king thedogin thescho
47、cl.wideangle.cinemati样,AIGC平台是否能够“突破”用户表达的瓶颈,生成更具创新性的内容,提高优质内容的含量,也是目前的困境。资料来源:易观,Runway官网,国海证券研究所请务必阅读报告附注中的风险提示和免责声明21#page#酒国海证券EALANDSECURITIE商业化模式及成本拆分请务必阅读报告附注中的风险提示和免责声明22#page#文生图商业化模型尚国海证券FALAND SECURITIE主要成本费用拆解主要商业化方式主要应用场景图像分类可以在工业、工程设计等领域辅助进行目标识别、图像相算力成本基于GPU时间似度检索,辅助CAD设计等;在医学领域可以帮助进行图
48、学影像标注、解割、病理结构变化分析等。主要包括芯片采购和电费图像分割前期训练+后期推理调用运维成本在艺术设计、产品设计、动画与游戏制作等方面均有商业图像生成化潜力,可以根据设计者的草稿图、创意概念来生成图像基于生成次数以及图像合成、图像编辑、增强图像艺术性等,从而能够训练数据集获取成本帮助设计师、建模师进行动漫人物、游戏场景的制作,帮助完成海报、产品LOGO和产品包装设计等工作。在电商人力成本的应用方面,图像生成可以在虚拟试衣间、模拟商品展示图像风格转换等场景提升用户的在线购物体验。模型开发训练等人员能够根据已有图像的上下文信息修复缺失部分,对图像对个性化定价比度、锐度或色彩鲜艳度等图像要素的
49、增强等,可以应用图像修复运维成本于数字化历史文献的修复、图像修补等。在摄影与影视制作方面应用于老照片、老电影的修复和画质提升。产品运营和维护能够从低分辨率图像恢复和重建高分辩率图像,在医学影像处理场景中能够帮助医生创建逼真的病例和解部结构,AP接口调用销售费用生成CT扫描图像,辅助进行病情的分析诊断。另外,在天图像超分辨率文观测和卫星遥感观测等方面,利用图像超分辨率能够提产品买量、营销等升成像设备的性能,并克服时间差异、气象变化等因素引起的图像场景变化,为天文探索发现增加了更多可能性。资料来源:易观,国海证券研究所请务必阅读报告附注中的风险提示和免责声明23#page#图片生成模型成本拆分:以
50、Midjourney为例国海证券ALANDSECURITIE58数据成本数据购买相对一次性,约1000万-2000万美金,假设每年摊销500万美金5%10%硅谷一线公司比如OPENAI或者Midjourney人均人力成本大概是80-90万人力成本美金/年,目前Midjourney总共11个员工,人力成本约1000万美金/年。考虑Midjourney庞大的用户规模,按照使用1万张英伟达A100卡计算总成本80%芯片投入约1.8-1.9亿美金左右,按照3年折旧摊销一年平均约花费6000万美金。电力消耗按照A100算力的每一张卡的功率是250瓦,一年大概需要400万美金的电费。Midjourney成
51、本拆分算力人力数据其他毛利率30%-40%年收入约1亿美金总成本约75008000万美金/年约0.05美金/张图片约0.030.04美金/张图片净利率20%资料来源:产业调研,国海证券研究所请务必阅读报告附注中的风险提示和免责声明24#page#平均来看自回归模型成本最高,生成视频成本远高于生成图片国海证券山ALANDSFCURITI不同文生图模型的算力成本消耗对比文生视频的成本可能为文生图24倍以上除了Meta的CM3Leon人眼看到的视频是透过一连串的静态影像连续快速播放的结果,由于每一外,许多自回归模型入谷张静态画面的差异很小,因此连续快速播放时,一张张快速闪过的静态画歌Parti(20
52、0亿)、面在人眼视网膜上产生“视觉暂留”现象,原本静态的图像仿佛连贯运动DALLE(120亿)参数量大,因此成本较高,约了起来。为扩散模型的1.5倍通常来说,人看到视频是连贯的需要帧率为每秒24杭以上,电影放映的标准也是每秒24帧以上。如果文生图一次性消耗的算力是一个单元,文生视GAN训练及推理过频一次产生消耗约24个单元。实际应用可能是小于24,但不会小特别多程相对简单,参数量并且很有可能大于24,因为文生视频不仅仅是简单的把图片快速播放起来,较小,算力成本约为还需要内容具备多维性和多元性。目前主流文生视频模型生成视频长度仅扩散模型的1/41/3支持2秒4秒。60FPS24FPSGAN扩散模
53、型自回归模型但在实际模型应用中,成本不仅取决于参数量大小,也取决于训练时间和用户规模。前期训练阶段,若对模型训练时间没有要求,可以通过延长训练时间降低GPU成本;若对训练时间要求较短,则需要布局更多芯片提高训练速度。上线阶段,如果用户体量很大,比如OpenAI和Midjourmney规模用户体量,线上运营推理的成本可能占到整体成本80-90%,训练阶段成本只占10-20%。资料来源:产业调研,GITHUB,thegamerstation,中国电子报,国海证券研究所25请务必阅读报告附注中的风险提示和免责声明#page#图像生成应用的竞争壁垒依赖技术和产品能力双驱动下的飞轮效应国海证券A的DSE
54、CURITIE为什么Midjourney脱颖而出?多场景针对性输出:游戏开发影视制作技术能力工业设计底层模型技术壁垒营销生图质量高电商多样性个性化数据积累反哺模型训练C端用户拓展工程化能力B端用户拓展进一步打开天花板用户反馈进一步提/升产品能力产设计品符合用AI工程化的过程包括需求分析、模型设计、户需求模型训练、模型部署等环节。AI在产业里成门槛低易上手功落地,所需要的不仅是基础的算法能力、社区能力产品能力数据获取等,还需要较为完备的产品化能力和解决方案的搭建能力,形成一整套软件、硬件、数据、算法、营销等体系的建设资料来源:国海证券研究所请务必阅读报告附注中的风险提示和免责声明26#page#
55、文生图领域整体创业门槛低于大语言模型,商业模式仍存疑问国海证券尚EALANDSECURITIE中国AI绘画行业算法模型使用占比情况NLP预训练模型BERTERNIE 3HADClaD模型名称CldDTSPanGLaMDAERNIE3.0GLM-130Btldo(Large)Zeu11OM8参数量340M381758200B137810B千亿参数130B万亿以上24%训练数据集SGB4GB750G45TB1.JTB1.56TB4TB4B大小16%文生图预训练模型SubleDifus模型名称DFGANDALLEHOr9DALL.E2PaniCM3LeonCogviemgenSDXL1.0Cogvi
56、ew2K6L12B34B3.5B20B7B3.3B参数量4B6B3.5BSOMStable DiffusionDisco Diffusion其他训练数据集+00MSB340M大小中国AI绘画用户为AI绘画产品或服务付费比例模型层看:图像生成领域已有生成质量较高的开源预训练模型StableDiffusion,且SD具有较为丰富2%-1%的开发者生态,有许多插件供选择。创业公司可基于StableDiffusion基础版本进行进一步调优和个性化数据训练,StableDiffusion最新发布的开源模型SDXL1.0采用更大参数量级进一步提升了生成图像质量。例如初创公司无界AI便是国内最早基于SD模型
57、推出AI绘画工具的平台之一。成本端看:从主流模型参数规模看,文生图参数量级多在1-10B之间,而通用大模型入门级门槛达到了70B,文生图整体参数量级较小,成本远低于通用大模型。通过调研文生图初创公司,实际小团队169利用开源模型,初期在用户不到1万情况下甚至无需购买A100,通过购买RTX30140系列、IBS3060(50001w/张)也可以启动。用户1万左右的文生图公司,生成单张图片的成本在0.1元左右。文生图领域虽然创业门槛低,但商业模式仍存疑问。但国内C端用户付费意愿偏低,B端则需要和场景强相关,会有较多定制化的场景,要针对不同客户的产品需求去打造相应的图片生成的引擎,对工程从未付费1
58、0元以内10-100元化能力有很高的要求,长期看大公司可能具备更强的场景和工程化能力。以无界AI为例,其用户量接100-500元500-3000元3000元以上近300万,C端付费率约20%,营收主要来源于B端客户。资料来源:产业设研,51TCO,华为云,澎开新闻,阿里云,电科技,智谐官网,新智元,华经产业研究院,论文见附录,国海证券研究所27请务必阅读报告附注中的风险提示和免责声明#page#部分文生图&视频应用商业化情况武国海证券LANDSECURITIE国内国外应用应用应用类型应用类型收费模式收费模式文心一格AI绘画平台15美金换115个点数AI作画助手白银/黄金/铂金会员分别定价69/
59、139/339元月DALLE182Stable万兴爱画AI绘画平台文本到图像扩散生成开源免费10次/30次/100次分别为5元/12元/20元Diffusion美图Basic/Standard/Pro分别定价10/30/60收费模式尚未明确AI绘画平台AI视觉创作工具MidjourneyWHEE美元/月青铜/白银/黄金/铂金会员分别定价无界版图Designs.aiAI绘画工具具99/199/1299/4699元月限时特惠9.9元,附赠10顺钻石,钻石可用来高人工智能在线视频制作平Basic/Starter/Professional分别定价妙鸭相机Lumen5AI写真生成软件台清化(2颗/张)和
60、下载照片(2题张)19/59/149美元/月,企业可定制化通过销售月度“点数”(credits)供用户人工智能在线视频制作平用户可每天免费生成一张图,会员:9.99美元使用Gen-1、Gen-2成等产品及增值服台PicSoAI绘画生成器Kemung月或49.99美元年务,分别有标准版($12/月-625点)和高级版($28/月-2250点)人工智能在线视频制作平个人版本收取固定订阅费用,价格为29美台6OpenartA绘画工具20/200/800/5000点分别为5/30/100/500元Synthesia元/月,全年订阅享受25%折扣,264美元年:企业版本根据座位数的不同费用不同资料来源:
61、各公司官网,国海证券研究所请务必阅读报告附注中的风险提示和免责声明28#page#文生图推理算力需求测算国海证券山ALANDSECURITIE推理思路介绍:情景1文生图情景2情景3情景4情景5核心假设Midjourney显存容量经验公式:10亿参数量对应3.7GB显存容量需求。假设每个参数为FP32格式,假MJ参数量预估在9-40亿区间,SD301020405030设每个参数为FP32格式即4个字节(文生图一模型参数量(亿)在10亿上下,大部分文生图模型参数量在几十亿级别般不需要做精度缩减),则原始理论需求为10*4*108/1024/1024/1024=3.7GB。根据经验公式(参考右方推算
62、思路)377511.214.918.611.2所需显存容量(GB)等比例换算得到计算单次推理所需显卡数量:A100显存容量4040古404040A100显存容量(GB)为40GB/80GB,以40GB为例,A100可拓展的GPU是7个,40/7=5.7所需显存需求3.7,因此单次推理所需A100显卡数量为1/7。A100可拓展7个GPU,所以1/7张0.140.290.430.570.710.43(1)单次推理所需显卡数量A100已可满足单次推理需求根据日活数量推算并发推理需求最大设计容量MJ用户数量2023年5月在1500万8001003005001000700DAU(万)左右,考虑文生图付
63、费用户较为活跃,以Google的日活与单秒所需要处理的并发需DAU/用户数设定为50%求作为基础,考虑到文生图所需要的耗时较长Google搜索引擎10亿日活对应10万要让用户具备一定用户体验,并发容量的设计并发推理需求,大模型推理约为次数应该是10倍于谷歌搜索。1000300050008000100007000并发推理需求最大设计容量(次)5000次,考虑到文生图耗时更长,假设并发次数设计比例为谷歌搜索设计比例的10倍计算并发推理所需要推理次数:假设同一时间通常来说文生图井未对推理次数进行可承受的最高推理请求次数,以及单次推理时111111单次推理时合井的推理需求数量合井计算模型合并的推理需求
64、数量,得到在并发推理时所需要的推理次数。并发推理最大设计容量/单次推理合1000300050008000100007000(2)并发推理所需要推理次数并的推理需求容量计算并发推理所需要显卡数量:单次推理所需显卡数量与并发推理时最高所需要的推理次数143857214371433000推理所需要显卡数=(1)(2)4571相乘即为所需显卡的数量。资料来源:产业调研,数据学习,Discord,国海证券研究所请务必阅读报告附注中的风险提示和免责声明29#page#文生视频推理算力需求测算国海证券ALANDSECURITIE推理思路介绍:情景1情景2情景3情景4核心假设文生视频情景5显存容量经验公式:1
65、00亿参数量对应37GB显存容量需求。假设每个参数为FP32格式,假设RunwayGEN2参数未公布,预100150200250300估在100亿左右,整体参数量级高模型参数量(亿)每个参数为FP32格式即4个字节(文生图一般于文生图不需要做精度缩减),则原始理论需求为根据经验公式(参考右方推算思100*4*108/1024/1024/1024-37GB。37.355.974.593.1111.8所需显存容量(GB)路)等比例换算得到计算单次推理所需显卡数量:A100显存容量为4040合40书A100显存容量(GB)40GB/80GB,以40GB为例。根据日活数量推算并发推理需求最大设计容量2
66、1233(1)单次推理所需显卡数量以Google的日活与单秒所需要处理的并发需求作为基础,考虑到文生图所需要的耗时较长,要整体用户体量目前低于文生图1050100300500DAU(万)让用户具备一定用户体验,并发容量的设计次数DAU用户数设定为50%应该是10倍于谷歌搜索。考虑文生视频速度更慢,假设文生视频假设为文生图的2倍,即5倍考虑文生视频速度更慢,假设文10002002000600010000并发推理需求最大设计容量(次)于谷歌搜索。生视频假设为文生图的2倍计算并发推理所需要推理次数:假设同一时间可通常来说文生视频并未对推理次11111承受的最高推理请求次数,以及单次推理时模型单次推理
67、时合井的推理需求数量数进行合并计算台并的推理需求数量,得到在并发推理时所需要的推理次数。并发推理最大设计容量/单次推理20010002000600010000(2)并发推理所需要推理次数合并的推理需求容量计算并发推理所需要显卡数量:单次推理所需显200200040001800030000卡数量与并发推理时最高所需要的推理次数相乘推理所需要显卡数=(1)x(2)即为所需显卡的数量。资料来源:产业调研,数据学习,国海证券研究所请务必阅读报告附注中的风险提示和免责声明30#page#如何看待文生图竞争格局?与高频场景结合更容易突围尚国海证券FALAND SECURITIE短期代表应用长期Midjou
68、rney头部应用通过技术/产品/成本/StableDiffusion针对垂类场景头部应用C端天垂类AI应用数据等优势突破,在C端率先Runway开启变现;花板相对明确;文心一格万兴爱画创业门槛不高导致出现许多中搭建工程化能力可技术输出到长尾应用,缺乏竞争优势将逐B端场景,探索更多变现可能渐被淘汰,用户留存率低现有应用叠加AI功能Adobe Firefly基于现有高频场景,长期用户短期收入端贡献不明显,主要美图壁垒更强,用户不易流失,用盘活现有用户,通过AI功能引户ARPU和付费率有望提升入提升产品体验和用户粘性请务必阅读报告附注中的风险提示和免责声明31资料来源:国海证券研究所#page#酒国
69、海证券EALANDSECURITIE文生图代表模型及应用请务必阅读报告附注中的风险提示和免责声明32#page#图像生成模型一览:国内外厂商积极布局探索国海证券ALANDSECURITIE图像生成模型DiscoMake-A-模型名称DALL-EPartiCM3laonDALL-E-3发展超势CogViawGLDEMidjournyDALL-E-2 Stable DusionImagenCogViaw2DifusiorVILGScene2.0发布时间2021.022021.052021.112021.112022.032022.032022.042022.042022.052022.042022
70、.062023.032023.072021.122023.10整体厂商研发机构数量较少;募尼思大学、海等堡MetauadoOpenAl清华OpenAl潮豆MetaOpenAlGoogle清华ebooo百度OpenAMidjourney最新研究大学、Runway以国外厂商为主以英语为英文英文英文效文英文支持语言英文中文、英文英文中文、英文英文中文,英文英文中文,英文英文中文、英文主Difusion扩散模型扩散模型扩散模型扩散模型扩散模型Mald占底层算法自回归模型扩散模型自回归模型自回归模型自回归模型自回归模型自回归模型扩散模型扩散模型自回归模型主流350M/760131284B3.5810B4
71、B3.5B1586B20824B参数量参数量十M7B460M图像-LAION-训练集大O0M:Shuttersto训练数据集大145M文本35M文本一图30M文本250M文本-30M文本170M图像一文900M图像LAION-5B400MLaTT400M小、种类CK小医像对对面象对区家图学图本对安datasetsn图像-文本对开源模型是否开源较少;是西星香香星是香香香星香香国外厂商新模型不开源Zero-shot14.206.6127527.112.2414.7118410.391267.277.236.75)XO-0I24.00图像质量4.882生成速度5379.125Speeds资料来源:论
72、文见附录5,回海证券研究所33请务必阅读报告附注中的风险提示和免责声明#page#国海证券ALANDSECURITIEDreamStudic风格DALL-EMidjourney V5Tiamat点评CStableAdobe Firefly百度文心一格promptDiffusionv2.1)生成质量都比较高,照,夕阳的余障但在画面风格上有一照射在平静的湖写实风景面上,茂盛的病定区别,且对倒影处林,远处的雪山理也很湿真专业摄影一位经验丰富的MidjourneyV5和女设计师肖像AdobeFirefly效果运人物肖像半身照,浅灰色真、完成度高:文心背景,丰富的面部细节相对落后DALL-E和一个开心的
73、男孩穿着短袖运动DreamStudio相对较二次元阳光明妇,背景差,其余效果均不错是篮球场,动漫一格和Tiamat有专行明亮的色彩二次元”模型泰伟的古代中国Adobe、M生成效果建筑群,漂浮在领先,文心一格具备云端,广角全夏中国风特色,Tiamat概念场景成群的仙鹤,有专门“概念场景”布,盛开的桃花模型,部分应用缺乏游戏概念设计仙鹤元素一个可爱小公主Midjourney.Tiamat黑色长波浪形头和AdobeFirefly的发,穿着华丽的生成质量都不错蓝色衣服,快乐3D人偶太粗糙,DALL-E生成地微美着,迪士尼风格,被向日葵包国,3D油染心一格忽略“向日英描述超高分辨率资料来源:优设网,国海
74、证券研究所请务必阅读报告附注中的风险提示和免责声明34#page#page#谷歌:先后推出基于扩散模型的imagen和基于自回归模型的Parti国海证券HLANDSECURITIFImagenPartiImagen为谷歌在2022年5月发布的一款图像生成模型(15亿参数),主要基于扩Parti为谷歌在2022年6月发布的另一款图像生成模型,主要基于自回归模型。散模型。生成策略:Parti将Transformer与ViT-VQGAN结合。将文本到图像的生成视生成策略:Imagen首先将文本输入编码器(使用谷歌基于Transformer的T5为序列到序列的建模问题,类似于机器翻译一这使其能够受益于
75、大型语言模型编码器,确保文本编码理解标题中的单词如何相互关联),转换成数值表示。此的进步,尤其是通过扩展数据和模型大小来解锁的功能。Parti使用功能强大的外,Imagen使用扩散模型作为图像生成器,创建能够将输入到Imagen的字幕图像标记器VIT-VQGAN将图像编码为离散标记序列,并利用其将此类图像标的语义信息封装起来的图像,图像生成器或基础模型先输出一个小的64x64图记序列重建为高质量、视觉多样化图像的能力。像,随后magen使用两个超分辨率模型(同样基于扩散模型)将该图像放大到研究结果:对四种比例的Parti模型(350M、750M、3B和20B)进行了详最终的10241024分辨
76、率。细比较,并观察到:1)模型功能和输出图像质量得到持续和实质性的改进,最研究结果:表明大型预训练冻结文本编码器对于文本到图像任务非常有效,且预大版本的Parti模型甚至可以拼写单词,而OpenAI的DALL-E2只能生成图训练文本编码器的大小比扩散模型的大小更重要。像。2)在比较3B和20B模型时,评估者大多数时候更喜欢后者,具体来说:生成效果:Zero-ShotFID30k值为7.27,优于同OpenAI同样基于图像真实度/质量为63.2%、图文匹配率为75.9%;3)20B模型尤其擅长抽象、Diffusion模型的DALL-E2(10.39),主要原因或在于Imagen的文本编码器需要世
77、界知识、特定视角或书写和符号追染的提示。比DALL-E2的文本编码器大得多,并且接受了更多数据的训练生成效果:Zero-ShotFID30k值Parti-3B为8.10、Parti-20B为7.23缺陷:高质量图像生成依赖大参数量,训练成本较高;且对于部分情形生成能力有待提升,比如计数、否定的文本描述、多物体空间位置等3B350M750M20B资料来源:GoogleResearch,AssemblyAl,MarsBit,国海证券研究所36请务必阅读报告附注中的风险提示和免责声明#page#Meta:公布基于自回归的模型CM3Leon,生成质量美主流扩散模型国海证券EALANDSECURITIE
78、7月16日,Meta在官网公布CM3leon,是首个使用纯文本语言模型配方改编和训练而成的多模态模型,使用了30亿文本token,并经历了大规模检索增强预训练和随后的多任务监督微调(SFT)阶段。模型架构及数据库CM3Leon采用自回归模型。在预训练阶段,Meta使用了数百万张来自Shutterstock的授权图片,有70亿参数,达到了OpenAIDALL-E2模型的两倍。在架构方面,CM3Leon采用了一个和成熟的文本模型相似的仅解码器Transformer,但不同的是CM3Leon能够输入和生成文本和图像。通过采用论文TRetrieval-AugmentedMultimodalLangua
79、geModelingJ中提出的训练检索增强技术,Meta大大提高了CM3Leon模型的效率和可控性。CM3Leon强大性能的关键在于加入大规模的检索增强预训练阶段和第二个多任务加入监督微调的技术(SFT)阶段。通过应用跨模态的监督微调技术,Meta显著提高了CM3leon在图像标注、视觉QA和文本编辑方面的性能。模型特色左侧:各种多类型任务的常见输入;右侧相应的模型输出CM3leon的强大之处在于将模态组合成单一模型,让它能够在文本、图像和构图任务之间流畅地自由转换。除了文生图的功能,CM3leon还可以为图像生成标注、回答有关图像内容的问题,甚至可以根据边界框和分割图的文本描述创建图像,此前
80、公开披露的AI系统中是没有的。CM3leon还有一个独特的功能根据任意格式的这文本指令对现有图像进行编辑,比如更改天空颜色,或者在特定位置添加对象。兼顾计算量和成本的高质量图像生成模型,突破多模态模型的新疆界。据Meta介绍出复CM3leon训练时的计算量仅相当于以往基于Transformer方法的五分之一,但CM3leon在文本到图像的生成方面还是获得了同类领先的性能,获得了4.88的FID,超越谷歌的文本到图像模型Parti。CM3leon既具备自回归模型的功能多样性和有效性,也保持着较低的训练成本和良好的推理效率。CM3leon的效率显著高于同类Transformer架构模型料来源:Me
81、laAl官网,ScalingAutoregressiveMulti-ModalModels:Pretrainingand InstructionTuning浙名请务必阅读报告附注中的风险提示和免责声明37#page#page#StabilityAI:发布StableDiffusion开源模型国海证券EALANDSECURITIEStableDifusion是StabilityAI下的一款基于生成式AI的文本生成图像的模型,于2022年8月首次推出,2022年10月StabilityAI获得了由全球风险投资公司棋型架构及原理DiiuStableDifiusion采用的底层模型是扩散模型,将扩散模
82、型与LatentSpace结合,能够大U-Matr大减少计算复杂度,同时也能达到不错的图片生成效果。首先需要训练好一个自编码模型利用编码器对图片进行压缩,然后在潜在表示空间上做diffusion操作,最后再用解码器恢复到原始像素空间,论文将这个方法称之为感知压缩(PerceptualCompression)。引入感知压缩是通过VAE这类自编码模型对原图片进行处理,忽略掉图片中的高频信息,只保留重要、基础的一些特征,能够大幅降低训练和采样阶段的计算复杂度,让文图生成云9等任务能够在消费级GPU上,在10秒级别时间生成图片,大大降低了落地门槛。产品版本2022年8月,StabilityA推出Sta
83、bleDiffusion1.0版本,11月,StableDifusion2.0版本上线。2023年2月,ControlNet的通用型插件发布,在此基础上,StableDiffusion可以更精准地呈现人体姿态、画面层次感以及复杂的三维结构,用户可以调整图片细节。2023年4月,StableDiffusion改进版本一-SDXL发布,6月推出SDXL0.9版本更新,对StableDiffusion文本生成图片模型进行了升级。升级之后的StableDiffusion生成的图片效果更加逼真,改进了图像和构图2023年7月,StabilityAI公布了最新的开源绘图模型SDXL1.0,分别有两个版本:
84、用于文生图的33亿参数模型,和用于66亿参数的图生图模型。StabilityAI表示,SDXL1.0能生成更加鲜明准确的色彩,在对比度、光线和阴影方面做了增强,可生成100万像素的图像(10241024)。而且还支持在网页上直接对生成图像进行后期编辑。应用特色开源模型吸引开发者,代码速度选代快,由于开源免费属性,SD已经收获了大量活跃用户,开发者社群已经为此提供了大量免费高质量的外接预训练模型(fine-tune)和插件,并且在持续维护更新。在第三方插件和模型的加持下,SD拥有比Midjourney更加丰富的个性化功能商业化不足,产品使用门槛较高。相比Midjourney,SD对于硬件要求较高
85、,需要本地的独立显卡;部署相对麻烦,需要从Github下载许多部署文件;产品有一定使用难度,若想生成精致个性化的图片,需要一定学习门槛。资料来源:StabilityAI公司官网,机器之心,36氮,新智元,澎湃新间,IT之家,51CTO,稀土摇金,国海证券研究所请务必阅读报告附注中的风险提示和免责声明39#page#page#Clipdrop被StabilityAI收购,融入多项AI功能图像处理能力优秀,数据显著增长国海证券武OZ02WUCH图书I工图OL出我图IVEgWudopdp口法国,于2023年3月被A图像生成模型StableDiffusion的母公司Stability.AI收购。202
86、2年6月,Stability.AI发布SDXL0.9,表示其是“StableDiffusion文本-图像模型套件”的最先进开发版本。在收购Clipdrop后,SDXL0.9功能应用于Clipdrop中。2023年7月26日,Stability.AI发布SDXL1.0,进一步提升Clipdrop性能。其后数据出现明显增长,2023年7月网站访问量接近1500万。口Clipdrop测评:图像生成效果自然,细节处理优秀VAIGC功能:建立以AI为动力的图像创作生态系统本测评主要集中在Clipdrop中涉及AIGC的三项功能:文生图、图像变体和图像外绘以及一些基础图像编辑工具。Clipdrop的几项A
87、IGC功能均可以免费使用,但每日可使用次数和图像清晰度有限制。文生图:StableDiffusionXL操作简单便捷。图片的生成和编辑均可以在三步之内完成,图片生成速度较快,无需等待很长时间。StableDiffusion功能被集成于Clipdrop中,用户可以使用文本生成图像但是,未订阅版本会存在排队的情况。提供动漫、3D滨染、写实等风格选择,目前生成的图片不可商用。AI生成和修改图片质量较好。生成的图片细节清晰,立意明确;拓展的图片与原图片连接处自然流图像变体:ReimageXL畅。科一图“用工图根据用户上传的图片,识别图片内容和风格,自动生成类似图片。图像外绘:Uncrop根据用户上传的
88、图片,自动向外拓展图片。160035Clipdrop产品随着生成模型更新而更新,更新速度稳定。功能覆盖广,包140030含了视觉剪辑的各个方面120025V商业模式:同时进行固定费用和灵活收费,适应更多需求100020Clipdrop的产品有两种付费模式。免费版本可使用几乎所有工具,但是限制80图片大小和处理次数。60Free升级为Pro收取固定订阅费用。按月订阅价格为9美元/月,全年订阅价400中格为7美元/月,两种订阅方式可使用功能的类型和次数没有区别。订阅Pro20版本可以获得StableDiffusionXL功能的免排队使用,以及解锁各图片编辑功能的高清模式。API基于具体工具和调用工
89、具的次数收费。API模式下,用户付费充值credit时长(分钟)一所有设备访问量(万次)一身份访问量(万次)并用credit去兑换相应的工具及次数请务必阅读报告附注中的风险提示和免责声明41华型国“qoMBISZqB“lBAqBssdnussna“esequouno区dopdIO凯米#page#国海证券ALANDSECURITIEFirefly是Adobe的一款基于生成式AI的工具,能够通过100多种语言,使用简单的文字建立影像、生成填色、对文字套用样式和效果、生成式重新上色、3D转换为影像延展影像等。目前的Firefly生成式AI模式使用AdobeStock资料集、开放授权作品和著作权已到期
90、的公共内容进行训练。2023年9月,Adobe公布旗下AIGC工具FireflyA的商业化方案:点数制收费,用户使用AI作图时消耗生成点数,每个点数对应一张图,每月可免费获得25点生成点数,同时可以付费购买额外点数。以单独购买AdobeFirefly的价格计算,生成每幅图像的价格大约为5美分Firefly:创意生成式人工智能(AI)模型集产品版本3月,Adobe发布了AI工具Firefly的测试版,测试版使用使用AdobeStock资料输入文字“一座在海龟上集、开放授权作品和著作权已到期的公共内容进行训练。6月,Adobe将Firefly的灯塔生成基础图不同的用户的功能整合到Photoshop
91、的beta版中。群体选择:6月,Adobe推出了AI图像生成工具Firefly企业版。新版本使得企业可以使部分专业创框选灯塔用自身的数据资产训练企业自己的Firefly大模型,使得企业能够快速生成可安作者群体依从变体中选择全商用的图像内容然对符合创作者想官网显示,企业版Firefly将于今年下半年正式发布,企业用户已经可以在企业Micjoumey法的等生成型AI版AdobeExpress中使用Firefly的功能技术持抵触心理,应用特色Firefly的策多选项描述,降低画图门槛,与单纯的文字描述(prompt)不同,Firefly细化略是帮助创意设计者而多个维度的指标供用户选择,分层次、精细化
92、地明晰了客户的制图需求,能够三、在图片其他区域不是替代。提供更让用户满意的图像。加入其他内容。比如一座海底城市AI工具Firefly结合已有明星产品Photoshop,方便图像的定向修改,Adobe的产品Photoshop已经累积了非常可观的用户,通过与AI工具的结合,能够提升Photoshop的性能,同时AI工具更迅速地落地到应用当中,增加用户的粘性为文字套用不同样式和效果,有更丰富的商业应用场景,Adobe产产品对字体、其他个性化示例:平面设计、营销矢量图有较深的技术积累,可以做出精美的效果,StableDiffusion和内容、视频编辑、Midjourney在这一方面没有很好的支持。3D
93、建模版权争议较小,FireFly的训练数据基于Adobe自己的图库和公有数据。资料来源:Adobe公司官网,华尔街见间,雷科技,36氨,华尔街见间,国海证券研究所请务必阅读报告附注中的风险提示和免责声明42#page#百度:理解生成筛选三步走,不断优化文心一格的文生图效果国海证券尚EALANDSECURITIE文心一格基于文心大模型的文生图系统,是百度依托飞奖和文心大模型于2022年8月推出的首款AI作画产品。用户只需输入自己的创想文字,并选择期望的画作风格,即可快速获取由一格生成的相应画作。此外,文心一格还支持文生图+图生图模式,用户输入绘画创意并上传参考图也可生成图片技术路径文心知识增强跨
94、模态理解大模型:基于多视角对比学习的ERNIE-ViL2.0,在预训练过程能够同时学习模态间和模态内的多种关联性,提升图像和文本跨模态语义匹配效果“长入图票上就心一回质王SI-N我图要事的联心散模型,生成空间由小及大、生成轮廊由粗到细,同时根据生成阶段自动选择最优生成网络,文生图的效果取得进一步提升理解简介输入“一只在吃竹笋的大熊猫”,选择插画风格后生成的一组图片完成创作后可以使用AI缤辑功能户需求井在此基础上丰富语义细节,降低用户输入描述成本修复:途抹编辑在不填成新的图片,两张图各自的权重用户可以自行设置特色独以下人物动作识别再能够通过识别。片中的动作,再结合输入的描线生成节参数训线定义模型
95、,训练完成的模型模型,可重复使用基于扩散生成算法实现创意写实与恢弘构图的艺术画作生成AI创作:2电量/张(0.18-0.25元/张)2电量/次,图片叠加2电量/张9话收费模式电量可通过每日签到、大赛投、画作分享、画作公开和充值(80电方式获得编辑功能,最高筛选会员服务基于跨模态匹配大模型进行生成黄金会员:支持5组面作同时生成,能使用AI创作、AI编辑和实验室功画作的结果排序,自动选出语义能,最高可享2300电量,送充电打折卡8.5折3张和黄金排队加速与美观度最佳的画作铂金会员:支持10组画作同时生成,能使用AI创作,A端拍和进车功能,最高可享6000电量送充电打折卡8折3张和铂金排队加速资料来
96、源:百度AI、文心一格官网、国海证券研究所请务必阅读报告附注中的风险提示和免责声明43#page#万兴科技:持续加码AIGC,万兴爱画升级,Pixpic落地国海证券EALANDSECURITIE区水#回业一中用“工具O“OOl业“来图画口格的AI绘画作品,经过多轮选代升级,目前已经全面支持Al文字绘画、AI以图绘图及AI简笔画三种创作模式和小程序、移动端及网页端多端畅享体验。/oldxd“事照强区一“/科一“oIdxIdOON理“日项口板于一体,用户上传5张照片,即可快速生成专属数字分身,且支持艺术照、动画照、证件照、人像、工作照等写真模板风格。凭借简单的使用方法和对欧美人群照片偏好的特定生成
97、优化等,Pixpic在GooglePlay一经上线,就吸引了广大用户下载体验和社交媒体分享。文生图图生图简笔画特色N文字给文生图:与手动输入文本不同,“语生成器”已预设超500个常期地要的图用Tag,并提供人物&角色、五官、述地想要的围表情、头发、服装等十余个分类选项及多样化的风格效果,用户可以点选所需效果并对其权重进行调整,万兴爱画可据此自动生成一段丰富的文本内容并创作绘画作品图生图多元化图片风格选项简笔画:用户只需简单描墓几笔,人机共创,5秒内即可绘制一幅高品质画作收费模式5元/10次(折合0.5元次)12元/30次(折合0.4元次)20元/100次(折合0.2元/次)资料来源:万兴科技公
98、司公告、中证网、万兴爱画App、万兴科技官网、TechWeb、和讯网、国海证券研究所请务必阅读报告附注中的风险提示和免责声明44#page#国海证券ALANDSECURITIE2022年,美图的AIGC正式进入高速发展期。自2022年年底以来,美图快速选代AIGC应用,平均每月有新功能上线,多元化程度远超竞品,覆盖生活场景与工作场景。2023年6月19日美图举办以“AI时代的影像生产力工具”为主题的第二届影像节,现场发布美图视觉大模型MiracleVision及6款新产品:WHEE、开拍、WinkStudio、美图设计室2.0、DreamAvatar数字人和美图AI助手RoboNeo,覆盖视觉
99、创作、商业摄影、专业视频编辑、商业设计等领域,冒在全面提升影像行业的生产力,美图AI产品生态初步形成。相较于美图现有产品,这些新品部分面向B端用户,美图进一步释放布局ToB市场的信号。AIGC+C端市场存量变现+B端市场增量拓展成为美图的主要战略。美图AI产品生态meitu美图AI视觉大模型MiracleVisionA图片A视领AI设计AI数字人CWHEEEwinkGWinkstu8美图设计室DreamAvata文生图技术路径写实数字人物质有注移性(零样本学习使模型无需微调就能刻回事物特征,能较大程度美颜相地提高设计效率)美图云修上线时间2023年7月起陆续在美图各产品上线参数量10亿级别美图
100、秀秀AE相较于国外顶级视觉大模型,MiracleVision在亚洲人像摄影以及国美图AI开放平台开效组技术美图创意平台目作者生态RoboNeoENBTMirsceVision奇题暂关A大景的专业人士,研究探索目前美图主要的文生图产品包括WHEE(文生图、图生图)、美颜相机(AI写真、AI头像)和美专字评值希验:101竞争优势图秀秀(AI绘画、AI简笔画)。模型生态的构建美图将会为创提供创作支持,例如课程WHEE大赛等:创作者训练的模型可以在关图旗下产品进能够获得分成美图在过去十几年做的积累,使得MiracleVision相较于其文生图:输入创意描述(可智能补全)后还可选择性输入不希望星现的内容
101、,选择风格后即可产品功能进行生成,支持单次最高生成4张图片,图生图:可上传原图作为参考,其他部分基本与文生图相同商业模式MiracleVision将会通过AP或SDK将自身能力输出给行业客户使用资料来源:美图公司官网、公司交流、雷峰网leiphone、WHEE官网、国海证券研究所请务必阅读报告附注中的风险提示和免责声明45#page#美图:产品测评国海证券山美颜相机美图秀秀Al写真:用户上传820张多角度、多表情、多背景的照片用于面部档案生成,选AI绘画:【图生图】导入原图后即可生成三种不同风格的图片;【文生图】输入关键1年4张图片产品功能Al头像:用户上传同一人的38张近距离自拍(正脸优先,
102、尽量包含不同背景和产品功能A简等画:用户简单描拿几笔后即可生成6张图片,可选择性添加描述以帮助提高表情,避免脸部被遮挡)后选择头像性别(女性/男性/小女孩/小男孩)即可生成图片生成的准确性专属AI头像AI写真:【女生】芭比乐园3.9元/套,芭比3.9元/套,清冷白月光3.9元/套,女生AI绘画:【图生图】暂未商业化,可免费使用:【文生图】订阅制,每日可免费女生美式证使用2次照0.9元/次,职业形象照3.9元/套,毕业纪念照6.9元/套;【男生】男生证件照收费模式:订阅制,可免费使用1次,之后需开通VIP收费模式AI简笔画9.9元/套,男生美式证件照0.9元/次ViIP:连续包月12元,连续包年
103、98元(首年特惠88元),包年送一季128元,包(5种风格,每种10张)/6.6元,100张专属头像(10种风AI头像:50张专属头像月18元格,每种10张)/9.9元,订阅会员享100张免费头像图生图效果文生图效果(输入文本:一只在吃竹算的大熊猫)WHEE美图秀秀资料来源:美颜相机App、美图秀秀App、国海证券研究所请务必阅读报告附注中的风险提示和免责声明46#page#妙鸭相机:多模板AI写真相机,新晋爆款产品,但成熟度仍待提高国海证券EALANDSECURITIE妙鸭相机是一款由未序网络科技(上海)有限公司开发的应用程序,属于生成式AI在国内C端的商业化落地产品,用户只需支付9.9元并
104、提交20张以上个人照片,即可快速在线生成一套质感她美专业照相馆的写真集。对未序网络科技进行股权穿透可知其为阿里系公司,妙鸭相机实为优酷旗下的内部创业项目,该项目由2020年加入阿里巴巴的张月光带队开发,产品孵化团队暂未独立特色妙鸭相机本质是一款图生图产品,用户上传一张正面照以及至少20张多光线、多视角、多表情的上半身照片,可先生成一个数字分身。基于数字分身,选择自己喜欢的模版就可得到一套A写真。目前妙鸭相机提供晚秋、羽翼、职场、回到童年等36个写真模板(女性模板28个,男性模板8个)对比妙鸭相机Lensa1.制作数字分身技术路径StableDiffusion模型+开源数据集LAION-5B基于
105、LORA模型(StableDifusion的插件)微调的Diffusion模型主型路区是“别IVG县服参创应面其YEE(TY3EO2BE0-ol:su1)喜一真要中出产品功能Lensa侧重于生成头像,且支持许多非写实风格,而妙鸭相机则侧重于生成写真,相对而言更接近AI相机订阅会员制,35.99美元年,提供一周免费试用期,同时,为了限时特惠9.9元,附赠10颗钻石,钻石可用来高清化(2颗/张)让用户更好地和下载照片(2颗/张),钻石可以通过邀请好友额外获得(5题/也使用“魔法头像”功能,Lensa还提供了额外的付收费模式费选项,用户可以根据需求购买:50个头像/3.99美元,100个头邀请1位好
106、友),也可以通过充值获得(60颗/6元,购买更多有/5.99美元,或200个头像/7.99美元折扣)2.生成写真较低的定价,较为逼真的效果,以及对东亚脸型审美的优化目前已经是相对成熟稳定的应用,且是率先对文生图模型Stable选择喜欢的模板比较优势产品能力较强,用户生成单人模型后可便捷转化风格预览,用户Difusion进行简化文本倒置过程创新的图生图应用建得到高质量写真造型体验好。安全与隐私问题(或有,妙鸭相机于7月20日更新了部分条款包括“您所上传片将仅用于本服务使用,我们仅提供图处理服务,不会提取识别信息,服务完成3.精修写真系统将自动田除上述信不予留存”)安全与隐私问题:使用者担忧泄露隐
107、私以及肖像权受到侵犯待解决问题用户需上传的照片数量过多选择喜欢的造型自前因使用人数过多而导致等待写真的排队时间过长(算力资县行高清化、更像我等精修操作原不足高清代产品成熟度不高:写真生成的准确性有待提高(如上传儿童照片制作数字分身,生成的图片是儿童面容+成人体型)资料来源:证券时报、36氨、北京商报、妙鸭相机小程序、新浪财经、TechVerse、国海证券研究所请务必阅读报告附注中的风险提示和免责声明47#page#新国都:PicSo在海外率先上线,营收占比较小国海证券FALAND SECURITIEPicSo是新国都子公司洞见科技有限公司于2022年四季度推出的文生图软件,同时支持移动端(IO
108、S和安卓)和网页端,目前国内IP暂时无法使用,且相比中文文本输入,英文文本生成的图片质量更高。英文文本输入中文文本输入特色AIGirl:聚焦女性形象生成,输入基本描述后可选择生成真人形象或动漫形象。描述角度包括动作、形体、衣着、发型、长相、场景、配件以及视角等,同时官网给出了一些tags供参考AlArt:基本流程同AIGirl,用户输入文字描述并选择风格后即可生成画作,支持风格包括动漫、素描、暗黑、赛博朋克等用户可选择单次生成图片的数量,PicSo支持1、4、9的批量生成,后两者为付费选项收费模式用户每天可免费生成一张图片,更多的体验需要成为会员会员专享权益包括每月100积分、专业风格、排队优
109、先、无水印以及解锁多任务,价格为9.99美元/月或49.99美元/年,支付方式支持paypal、借记卡以及信用卡2022.10.20/1.3.12022.12.20/1.8.02023.2.14/1.10.12023.2.21/1.11.02023.6.21/1.15.0上线新功能:通过文本上线新功能:开辟文本上线新功能:可以查看软件上线AppStore,上线新功能:将照片和自定义生成各种动漫女新视频变成卡通风格孩;生成各类标签的真生成AIGir板块积分消耗及支付详情实女孩资料来源:财联社、PicSo官网、AppStore、国海证券研究所请务必阅读报告附注中的风险提示和免责声明48#page#
110、酒国海证券EALANDSECURITIE文生视频代表模型及应用请务必阅读报告附注中的风险提示和免责声明49#page#视频生成模型:行业迎来小幅高潮,生成质量仍有提升空间国海证券让在一定程度上,文本生成视频可以看作是文本生成图像的进阶版技术,同样是以Token为中介,关联文本和图像生成,逐锁生成所需图片,最后逐帧生成完整视频。据量子位发布的AIGCAI生成内容产业展望报告,视频生成将成为近期跨模态生成领域的中高潜力场景,其背后逻辑是不同技术带来的主流内容形式的变化视频生成模型模型名称NiwA(女端)FtesakNUWA-XLvidesaPYoCo发展造势GODIVACogvideoMake-A
111、-VieoImageaVideoMagcVideoTueA-video Tex2Ve-7e2022052022102023.022013.0320230发布时间2021042021.112022092022102022.12022122023.06PicsartA研发机构所加坡国立大学、UTMetaGoojGoogl临社本Nvdia福软腾讯3支持语当福楚英语英语英语英以英调为主英语中文、英语英语英语英语黄泰并存底层算法DISDifusioAR自回日模型AR自回归模型占据主流B参数量1参数量0989.4H11.6E8514M个文本-初频2.9M个文本医5240M图像07M视频文机频文本对:对对-
112、52K视频对装图像对欢对机频数据集)本图像对订国产厂商开源是香开源香香香香香绿是是音音星晋香过外12812848048083.083.0较低256255125122562561280*2043生成机频分解率225分钟11分钟生成视须时长特5858是是香是香香Zero-Shot和力24-324核秒24软秒信590632栋秒妹833.4547.76UCF-101IS(1)751.34(中文69955061UCF-101FVD(4)C39C355.19701.59(英文)请务必阅读报告附注中的风险提示和免责声明50资料来源:论文见附录6,国海证券研究所#page#国海证券EALANDSECURITI
113、E自回归模型CogVideo是由清华团队2022年发布的基于预训练的CogView2(文本生成图像模型)9B-参数转换器。CogVideo是当时最大的、首个开源的文本生成视频模型,支持中文prompt,参数高达94亿。CogVideo采用的Transformer结构,和CogView的几乎一致,例如使用夹层范数(SandwichLayerNorm)和PB-Relax来稳定训练。模型创新多赖率分层训练策略:能够更好地对齐文本和视频剪辑,显著地提高视频生成的准确性,这种训练策略赋予了CogVideo在复杂语义运动的生成过程中控制变化强度的能力基于预训练的文本生成图像模型:通过微调预训练的文本生成图
114、像模型节省了从头开始预训练的花费,提高了生成的效率。生成步骤:1.基于VQ-VAE,将每顿标记为图像token;2.基于低率和文本顺序生成关键锁数据集:CogVideo在包含540万个字幕视频的数据集上预训练模型,空间3.基于文本、顿率以及已知的快递归插值,逐步生成中间慎。分辩率为160160(CogView2可以上采样到480480)。优点:模型拥有较好的对齐文本和视频剪辑的能力,生成的视频质量及准确性有大幅提高。相比于先前模型,能够生成较高分辩率(480480)的视频。挑战:输入序列长度受限于模型的规模和GPU内存ionviaTranstormersWvenvi Hong是示和免责声明51
115、请务必阅读#page#微软:NUWA系列从自回归到扩散模型,视频生成长度增加尚国海证券FALAND SECURITIE自回归模型扩散模型与NUWA相比,NUWA-nfinity在NUWA-XL通过16分辨率和可变尺寸的生成中,有句简单描述能够生的卓越视觉合成能力成11分钟动画NUWANUWA-XLNUWA-lnfinity用于无限视觉合成的生成模型,生成任意大小的高分定义统一多模态预训练模型用于超长视频生成的新型扩散基于扩散架构。辩率图像或长时间视频。底层模型Transformer框架-自回归模型自回归模型(autoregressiveoverautoregressive)扩散模型(Diffu
116、sionoverDiffusion)由图像和视频预训练的模型;采用能够同时覆盖语言全局补丁级自回归模型考虑补丁之间的依赖关系,局图像和视频以及不同场景任务的三维变压器采用“从粗到细”的过程,应用全局扩散模型生成整器框架;既能将视频作为三维数据处理,又能将文本和依赖关系;邻近上下文池(NCP)引入到已生成的缓模型特点个时间范围内的关键锁,然后局部扩散模型递归填充图像分别作为一维和二维数据进行处理;通过三维邻近存相关补丁中,作为正在生成的当前补丁的上下文附近顿之间的内容,视频可以以相同的粒度并行生成注意力(3DNA)机制考虑视觉数据的性质并降低计算任意方向控制器(ADC)用于为不同的视觉合成任务复
117、杂度。确定合适的生成顺序,并学习阶次感知位置嵌入。Generton请务必阅读报告附注中的风险提示和免责声明52#page#page#谷歌ImagenVideo:应用级联模型和渐进式蒸馅加速提升视频质量国海证券扩散模型15-(468858ImagenVideo是一个基于级联视频扩散模型的文本条件视频生成系统,由谷歌团队提出。ImagenVideo使用冻结的T5文本编码器、基本视频生成模型和一系列交错的空间和时间视频超分辨率模型生成89高清视频,将以前基于扩散的图像生成工作的结果转移到视频生成设置中。a99模型特色渐进式蒸馅:视频模型中应用了浙进式蒸馆,无需分类器指SSR和TSR模型:模型使用时间
118、卷积而不是时间注意力。基础模型中的时间注意力使导:以实现快速、高质量的采样。蒸馏在采样时间和感知质ImagenVideo能够对长期时间依赖性进行建模,而SSR和TSR模型中的时间卷积量之间提供了非常有利的权衡:蒸级联的速度提高了约允许lmagenVideo在上采样过程中保持局部时间一致性。与时间注意力相比,使用18,同时产生的视频质量与原始模型的样品相似。就FLOP时间卷积降低了内存和计算成本-这一点至关重要,因为TSR和SSR模型的真正目而言,蒸馏模型的效率提高了约36的是在高帧速率和空间分辨率下运行。U-Net:基本视频模型从扩大视频U-Net的参数计数中受益magenVideo由7个子模
119、型组成(1个T5文本编码器、1个基础视频扩散模型、3个浅,通过增加网络的基本通道数和深度来执行此扩展。SSR扩散模型、3个TSR扩散模型),分别执行文本条件视频生成、空间超分辨率和多种方法从图像域转移到视频:例如v参数化、条件反射增强时间超分辩率。生成步骤:文本输入至级联采样管道开始生成,逐步SSR用以提高视频的分辨率,和无分类器指导,并且发现这些在视频设置中也很有用TSR用以提高视频的帧数。优点:不仅能够生成高保真视频,而且具有高度的可控性和世界知识,包括能够生成各种艺术风格的各种视频和文本动画、能够理解3D结构、能够呈现具有不同样式和动态的各种文本挑战:在当前的模型大小下,性能尚未饱和,未
120、来进一步扩展视频生成的模型的仍有空间。模型的输入和输出仍然存在社会偏见和刻板印象,难以检测和过滤请务必阅读报告附注中的风险提示和免责声明54#page#MetaMake-A-Video:创新采用无监督学习,加速模型训练武国海证券Make-A-Video是Meta旗下的基于文本生成视频的模型从配对的文本图像数据中了解世界的样子以及描述的方SRSRn法,并从无监督的视频片段中了解世界是如何移动的。Input TextMake-A-Video由三个主要组件组成:(i)在文本图像对上训练的基本文本生成图像模型;ii)时空卷积和注意力层,将网络的构建块扩展到时间维度;(ii)由两个时空层组成的时空网络,
121、以及文本生成视频所需的用于高顿率生成的帧插值网络。模型创新ratedVideo使用无监督学习:从数量级更多的视频中学习世界动态有助于研究人员摆脱对标记数据的依赖。时空管道:能够通过新设计的时空管道(包含视频解生成步骤码器、插值模型和两个超分辩率模型)去生成高分辩1、通过PriorP输入文本,转换为图像embedding以及帧率;率和帧率的视频,并且能够实现除文本生成视频以外2、解码器生成16幢6464的图像的应用。3、按插值到更高的顿速率,并通过SR将分辨率提高,从而生成高时空分辩率的视频。优点:由于模型不需要从scratch中学习视觉和多模态表示,因此加速了文本生成视频模型的训练模型成功将基
122、于扩散模型的文字生成图像模型扩展到文字生成视频模型,无需配对的文字-视频数据生成的视频继承了图像生成模型的广阔性(美学多样性,幻想描绘等)。挑战无法学习文本与现象之间的关联,只能从视频推断在整合以及生成包含多个场景和事件的长视频方面仍待后续完善BoWbuISIOunIOOOIA-IXIINOHIIM NOLYINO OIOIA-OI-IXIOOIA-JMW55#page#字节跳动MagicVideo:平滑视频剪辑助力商业应用尚国海证券EALAND SECURITIE扩散模型MagicVideo是字节跳动提出的一种基于潜在扩散模型的高效文本到视西频生成框架,Magicvideo可以生成与给定文本
123、描述一致的平滑视频剪辑。Magicvideo的核心在于关键帧生成,通过扩散模型来近似低维E潜在空间中16个关键顿的分布,结合具有高效的视频分配适配器和定向时间注意力模块的3DU-Net解码器,用于视频生成。模型创新CEL8视频训练加速:使在图像任务上训练的U-Net降噪器适应视频Q00-0数据:用于图像到视频分布调整的帧轻量级适配器和用于捕获跨帧时间依赖性的定向时间注意力模块,因此可以利用文本到00图像模型中卷积运算符的信息权重来加速视频训练。像素抖动改进:为了改善生成的视频中的像素抖动,提出了一生成步骤种新颖的VideoVAE自动编码器,以实现更好的RGB重建。1、使用预先训练的VAE将视频
124、片段映射到低维潜在空间,对视频片段在低维潜在空间中的分布进行建模;2、在推理阶段,首先在潜在空间中生成关键顿,然后插入关键顿以暂时平滑核序列;数据集:Laion5B;10M视频;50MWebvid10M视频;7M视频-文3、将潜在序列映射回RGB空间,并将获得的视频上采样到高分辨率空间,以获得更好本对;UCF-101,MSR-VTT的视觉质量。优点:MagicVideo可以生成具有现实或虚构内容的高质量视频剪辑,文本生成视频剪辑,商用场景丰富,可以在剪映、抖音等软件里应用。由于新颖高效的3DU-Net设计和低维空间中的视频分布建模,MagicVideo可以在单个GPU卡上合成具有256256空
125、间分辨率的视频剪辑,就FLOP而言,计算量比视频扩散模型(VDM)少约64倍中的风险提示和免责声明56#page#NVIDIA:侧重扩散模型,实现高质量视频合成尚国海证券EALANDSECURITIEPYoCoVideo LDM扩散模型161646416x64166x256x25E潜在扩散模型(LDM)通过在压缩的低维潜在空间中训练扩散模型,实现高质量的图像合成,模型使用视频数据微调预训练图像扩散模型作为视频合成任务的解决方同时避免过多的计算需求。案,研究了适合顺序视频慎生成的混合噪声和渐进噪声先验,应用渐进式噪声先验来微调基于扩散的文本到图像模型。管道由四个网络级联组生成步骤成:一个基本模型
126、和三个上采样模型。所有四种模型都将输入作为从T51、先仅在图像上预训练LDM;编码器和CLIP文本编码器获取的文本嵌入。2、通过向潜在空间扩散模型引入时间维度并对编码的图像序列(即视频)进行微调,将图像生成器转换为视频生成器;生成步骤3、在时间上对齐扩散模型上采样器,将它们转换为时间一致的视频超分辨率模型。1、基本模型生成16个空间分辨率为6464的视频,跳杭为5。2、第一个上采样模型执行时间插值,生成大小为766464的视频;两个实际应用:3、随后的两个超分辨率模型执行空间超分辨率以生成大小为762561、模拟野外驾驶数据:已经在分辩率为5121024的真实驾驶视频上验证了的视频LDM,实现
127、256和7610241024的视频。了最先进的性能。2、使用文本到视频建模创建创意内容:可以将公开可用的、最先进的文本到图像LDM稳定扩散转换为高效且富有表现力的文本到视频模型,分辨率高达12802048资料来源:tent Diffusion Models AndreadiahwithL请务必阅读报告附注中的风险提示和免责声明57国海证#page#Zeroscope:拥有较高质量输出的中国开源模型国海证券SEALANDSECURITIE扩散模型ZeroscopeTextto-videozeroscopev2Zeroscope是魔搭社区(ModelScope)里文本生成视频的模型,其中Zeros
128、cope_v2大模型在HuggingFace上开源,该模型是基于17亿参数量ModelScope-text-to-video-synthesis模型进行二次开发。图像质量Zeroscope生成的视频没有水印,适配16:9的宽高比,有着较高质量和流畅的视频输出。从V1到V2,Zeroscope的视频生成画面质量、速度和逻辑性都有较大的提高。数据集:Zeroscope_v2_576w采用24、576x320分辨率的9923个剪辑和29769个标记进行训练。使用说明:通过简单的文字描述输入(prompt),在数分钟内,用户可以免费得到视频输出,目前只有约4s的视频输出,画面比较单一,运动轨迹不丰富优
129、点:开源模型能够充分集思广益,加速模型的发展与送代,增加社区内用户的参与。和Runway的Gen-1、Gen-2一样直达C端用户,目前其他文本生成视频模型并未开放给C端用户。挑战:由于模型开源,无公司及团队支撑,无明确的商业化路径。无明确的团队支撑产品的选代及研发,后续发展的形势不明确。“Zeroscope无会议期刊资料来源:新智元,华尔街见间,HuggingFace,国海证券研究所请务必阅读报告附注中的风险提示和免责声明58#page#Gen-1:基于潜在扩散模型,助力商用发展Runway国海证券扩散模型TrainingInferenceGen-1是Runway提出的转换视频风格的模型,于2
130、023年2月推出商用,同期发布论文。Gen-1将潜在扩散模型扩展到视频生成,通过将时间层引入到预训练的图像模型中并对图像和视频进行联合来自输入视频的形状表示,并修改它基于描述编辑的文本提示,目的是编辑视频内容保留其结构模型创新生成步骤1、训练期间:输入视频后使用固定编码器编码并扩散。提取一个结构表示和一个内容表示,模型无需额外训练和预处理:结构和内容感知学习在潜在空间反转扩散过程模型根据示例图像或文本修改视频,编辑,通过先验将CLIP文本嵌入转换为图像嵌入,通过文本指定内容。2、推理过程:输入视频的结构,完全在推理时执行,无需额外的每个视频训练或预处理。Gen-1使用说明:控制与结构一致性:模
131、型展示了对时间、用户基于自己对于预期产出内容的完全控制和结构的一致性,对图像视频的想象,可以从图像、和视频数据的联合训练可以对时间一致性预设、prompt(文字描述)进行推理时间控制。为了结构一致性,对等方面设置转化后视频的风馆展示中的不同细节级别的训练允许在推理格,可以预览生成的视频,能在5分钟内生成视频,并过程中选择所需的设置。对生成的视频打分,提升平部分微调:证明经过训练的模型可以进一台对用户的理解。但能够生步通过对一小组图像进行微调,进行定制成的视频时长较短。(在以生成特定主题的更准确的视频ProPlan的订阅下,Gen-1最多15秒)请务必阅读报告附注中的风险提示和免责声明59#pa
132、ge#page#Synthesia:海外领先的AI视频应用,已开启商业化国海证券EALANDSECURITIESynthesia是一个人工智能视频创作平台。该平台素材丰富,支持120多种语言,提供140+个AI化身;制作时间短,不需要视频剪辑技巧,可以在esouuAs最其音不变OOL%SE“S盛最不变部SHeIsouus“目“是奇IV身生成了超过1200万个视频,用户增长率超过400%。创始团队:创始人学历背景突出,来自多所知名大学。Synthesia产品更新:更新速度快,更新内容丰富度高。Synthesia的产品更新速度较快,日常更新主要为于2017年由来自伦敦大学学院、斯坦福大学、慕尼黑工
133、业大学和丰富素材库。更新的内容包括改进、新功能发布、AI形象、STUDIO、API、提醒、声音、模板等剑桥大学的人工智能研究人员和企业家团队创立。方向,并将不同方向设置成标签,标注在每次产品更新之后,帮助快速检索相关更新情况。融资情况:从2019年起进行多轮融资,阶身独角兽企业。2023年商业模式:以订阅费和定制费用为主。Synthesia的产品分为个人版与企业版两个版本,个人版6月13日,Synthesia正式宣布完成了9.000万美金的C轮融资,本收取固定订阅费用,价格为22.5美元/月,全年订阅享受25%折扣;企业版本根据座位数的不估值达10亿美金正式晋升独角兽,本轮融资由Accel领投
134、同费用不同。两种版本均可体验基础的视频制作功能,但在素材丰富度、特殊功能以及优先级上NVentures、Kleiner Perkins、GV、Firstmark capital、 Alex存在较大差距。Wang、OlivierPomel、AmjadMasad参投。YSynthesia创始人团队V选择模板界面V输入文本界面YSynthesia融资情况2019年4月获得310万美元种子轮融资2021年4月获得1.250万美元A轮融资2021年12月获得5.000万美元B轮融资2023年6月获得9.000万美元C轮融资资料来源:AIGC开放社区,Synthgsia公司官网,Hashdock,投中网,
135、巴比特资讯,国海证券研究所请务必阅读报告附注中的风险提示和免责声明61#page#Lumen5:可将文本转化为视频,自动生成对应的场景和角色国海证券尚Lumen5是一款视频创建软件,可以帮助营销人员、发布商和品牌创建视频内容,可以拥有丰富的应用场景将博客文章(blogposts)转换为视频、头部说话内容(TalkingHeadVideo),超过一百万家公司使用Lumen5来讲述他们的故事。将博客文章转换为视频:只需弹出博客链接即可开始,或者复制、粘贴内容至Lumen5AI自动生成视频;Lumen5会总结文章,并且将场景与相关素材进行匹配;能够将创造力和机器学习相结合。丰富的学习资源,让非专业人
136、士轻松上手Learning Resources创建头部说话内容:通过标注和剪辑增强视频、视觉叠加来吸引观众;A.1自动为所有视频剪辑生成字幕。通过转录进行编辑变得更容易。成熟的定价策路:分别有基础版、初学者版、专业版以及企业版,在不同的层次提供不同的级别的功能,用户也可以加入社群客户群体丰富,商业化成熟(community),免费使用部分功能能够提供1080p的视频分辨率、无水印的视频、500M的图像及视频库存为企业版能提供定制化的品牌模板和888SIEMENSRFMGXOEENOS设计团队资料来源:Lumen5公司官网,国海证券研究所请务必阅读报告附注中的风险提示和免责声明62#page#行
137、业评级及理由武国海证券ALANDSECURITIE文生图和文生视频底层技术不断演进、模型持续选代,涌现出一批优质原生AI应用,在C端开创了全新的应用体验,同时在B端游戏、营销、影视制作、文旅、电商等多个行业均开启应用,实现降本增效,长期有望进一步打开商业化空间。我们看好AI多模态行业投资机会,维持行业“推荐”评级,建议关注微软、Meta、Adobe、谷歌、百度、阿里巴巴、美图、万兴科技、新国都等相关标的。请务必阅读报告附注中的风险提示和免责声明63#page#风险提示酒国海证券EALANDSECURITIE口竞争加剧风险:文生图行业应用涌现,生成效果较为接近,存在竞争风险口内容质量不佳风险:文
138、生图部分应用生成效果相对有限口用户流失风险:C端应用用户留存率不稳定,存在流失风险口政策监管风险:人工智能生成内容存在监管风险口变现不及预期风险:应用在商业化付费上存在不及预期风险口估值调整风险等:板块行业存在估值调整风险请务必阅读报告附注中的风险提示和免责声明64#page#附录1-P7酒国海证券EALANDSECURITIEGAU-GANGAU-GAN-2VIT-QGAN名CogView:Mastering Text-to-Image Generation via TransformersMing Ding等oHierarchical Text-Conditional Image Gene
139、ration with CLIP Latents 9 Aditya Ramesh等High-Resolution Image Synthesis with Latent Diffusion Models Robin Rombach等请务必阅读报告附注中的风险提示和免责声明65#page#附录2-P8尚国海证券EALANDSECURITIEGeneraling VideTemporalGenADVERSARIAL VIDEO GENERATION ON COMPLEX DATASETSAidan Clark等emely Long Video Generation3 Shengming Yin等A
140、lisffusion ModelsAndreHngh-请务必阅读报告附注中的风险提示和免责声明66#page#附录3-P13酒国海证券EALANDSECURITIEo Generating Videos with Scene Dynamics Carl Vondrick等VidcoGPT: Vidco Generation using VQ-VAE and Transformers Wilson Yan等o Temporal Generative Adversarial Nets with Singular Value Clipping Masaki Saito等8MoCoGAN: Dccom
141、posing Motion and Content for Vidco Generation Sergey Tulyakov等oADVERSARIAL VIDEO GENERATION ON COMPLEX DATASETS Aidan Clark等TVIVSHHAdV HAIIVHaNaD LIJITWI HHVMV- SJIWVNAG HLIM SOHdIA SNIIVHANHS NETWORKSSihyun Yu等请务必阅读报告附注中的风险提示和免责声明67#page#附录4-P18尚国海证券ALANDSECURITIE。Video Diffusion Models Jonathan H
142、o等参uS IHn VIVd OHGIA-IXHL IDOHLIM NOILVHENES OHGIA-OL-LXHLOHGIA-V-aXVWo IMAGEN VIDEO: HIGH DEFINITION VIDEO GENERATION WITH DIFFUSION MODELS Jonathan Ho等3Tune-A-Video: One-ShotTuning ofImage Diffusion Models for Textto-Video Generation Jay Zhangjie Wu等。Dreamix: Video Diffusion Models are General Vid
143、eo Editors Eyal Molad等。 NUWA-XL: Diffusion over Diffusion for eXtremely Long Video Generation Shengming Yin等o Text2Video-Zero:Text-to-Image Diffusion Models are Zero-Shot Video Generators Levon Khachatryan等。Align your Latents: High-Resolution Video Synthesis with Latent Diffusion Models Andreas Blat
144、tmann等。 Preserve Your Own Correlation:A Noise Prior for Video Diffusion Models Songwei Ge等请务必阅读报告附注中的风险提示和免责声明68#page#附录5-P33尚国海证券ALANDSECURITIEDiffusion Models Beat GANs on Image Synthesis Y Prafulla Dhariwal等。CogView: Mastering Text-to-Image Generation via Transformers Ming Ding等Make-A-Scene:Scene
145、-Based Text-to-Image Genwith Human PriorsOran Gafni等o Hierarehieal Text-ConditionalImage Generation with CLIP Latents 9 Aditya Ramesh等 High-Resolution Image Synthesis with Latent Diffusion Models Robin Rombach等Scaling Autoregressive Multi-ModalModels: Pretraining and Instruction Tuning 3 Lili Yu等Imp
146、roving Image Generation with Better Captions James Betker等请务必阅读报告附注中的风险提示和免责声明69#page#附录6-P51酒国海证券ALANDSECURITIEGODIVA:Generating Open-Domaln Videos from nAtural Deseriptions Chenfei Wu等。 NUWA:Visual Synthesis Pre-training for Neural visUal World creAtion Chenfei Wu等CogVidco:Large-scale Pretraining
147、for Textto-Vidco Generaton via Transformers WenyiHong等8us Iun VIVd OHGIA-IXHL LROHLIM NOILVHHNaD OHGIA-OL-IXHL :OHdIA-V-HXVWoIMAGEN VIDEO: HIGH DEFINITION VIDEO GENERATION WITH DIFFUSION MODELS Jonathan Ho等 SNOILdIaOSad TVOLXHL NIVWOd Nado WONd NOLLVMaNaD OadIA HLDNaT aTaVIHVA IXVNaHd RubenVillegas等
148、Tune-A-Video: One-Shot Tuning of Image Diffusion Models for Text-to-Vidco Generation Jay Zhangjie Wu等8Text2Video-Zero:Text-to-Image Diffusion Models are Zero-Shot Video Generators Levon Khachatryan等。 NUWA-XL:Diffusion over Diffusion for eXtremely Long Video Generation Shengming Yin等 Structure and Co
149、ntent-Guided Video Synthesis with Diffusion Models Patrick Esser等o Align your Latents: High-Resolution Video Synthesis with Latent Diffusion Models Andreas Blattmann等 Preserve Your Own Correlation:A Noise Prior for Video Diffusion Models Songwei Ge等请务必阅读报告附注中的风险提示和免责声明70#page#研究小组介绍武国海证券EALANDSECURI
150、TIE海外小组介绍陈梦竹,南开大学本科&硕士,6年证券从业经验,现任国海证券海外研究团队首席分析师,专注于全球内容&社交互联网、消费互联网、科技互联网板块研究。尹芮,康奈尔大学硕士,中国人民大学本科,2年证券从业经验,现任国海证券海外互联网分析师,主要覆盖内容&社交互联网方向。张娟娟,上海财经大学硕士,三年产业工作经验,曾任职于阿里、美团,现任国海证券海外互联网研究助理,主要覆盖生活互联网方向。罗婉琦,伦敦政治经济学院硕士,现任国海证券海外研究团队研究助理,主要覆盖消费互联网方向。分析师承诺陈梦竹,尹芮,本报告中的分析师均具有中国证券业协会授予的证券投资咨询执业资格并注册为证券分析师,以勤她的
151、职业态度,独立,客观的出具本报告。本报告清晰准确的反映了分析师本人的研究观点。分析师本人不曾因,不因,也将不会因本报告中的具体推荐意见或观点而直接或间接收取到任何形式的补偿国海证券投资评级标准股票投资评级行业投资评级买入:相对沪深300指数涨幅20%以上;推荐:行业基本面向好,行业指数领先沪深300指数;增持:相对沪深300指数涨幅介于10%20%之间;中性:行业基本面稳定,行业指数跟随沪深300指数;中性:相对沪深300指数涨幅介于-10%10%之间;回避:行业基本面向淡,行业指数落后沪深300指数。卖出:相对沪深300指数跌幅10%以上。请务必阅读报告附注中的风险提示和免责声明71#pag
152、e#免责声明和风险提示武国海证券LANDSECURITIE免责声明本报告的风险等级定级为R4,仅供符合国海证券股份有限公司(简称“本公司”)投资者适当性管理要求的的客户(简称“客户”)使用。本公司不会因接收人收到本报告而视其为客户。客户及/或投资者应当认识到有关本报告的短信提示、电话推荐等只是研究观点的简要沟通,需以本公司的完整报告为准,本公司接受客户的后续问询本公司具有中国证监会许可的证券投资咨询业务资格。本报告中的信息均来源于公开资料及合法获得的相关内部外部报告资料,本公司对这些信息的准确性及完整性不作任何保证,不保证其中的信息已做最新变更,也不保证相关的建议不会发生任何变更。本报告所载的
153、资料、意见及推测仅反映本公司于发布本报告当日的判断,本报告所指的证券或投资标的的价格、价值及投资收入可能会波动。在不同时期,本公司可发出与本报告所载资料、意见及推测不一致的报告。报告中的内容和意见仅供参考,在任何情况下,本报告中所表达的意见并不构成对所述证券买卖的出价和征价。本公司及其本公司员工对使用本报告及其内容所引发的任何直接或间接损失概不负责。本公司或关联机构可能会持有报告中所提到的公司所发行的证券头寸并进行交易,还可能为这些公司提供或争取提供投资银行、财务顾问或者金融产品等服务。本公司在知晓范围内依法合规地履行披露义务。风险提示市场有风险,投资需谨慎。投资者不应将本报告为作出投资决策的
154、唯一参考因素,亦不应认为本报告可以取代自己的判断。在决定投资前,如有需要,投资者务必向本公司或其他专业人士咨询并谨慎决策。在任何情况下,本报告中的信息或所表述的意见均不构成对任何人的投资建议。投资者务必注意,其据此做出的任何投资决策与本公司、本公司员工或者关联机构无关。若本公司以外的其他机构(以下简称“该机构”)发送本报告,则由该机构独自为此发送行为负责。通过此途径获得本报告的投资者应自行联系该机构以要求获悉更详细信息。本报告不构成本公司向该机构之客户提供的投资建议。任何形式的分享证券投资收益或者分担证券投资损失的书面或口头承诺均为无效。本公司、本公司员工或者关联机构亦不为该机构之客户因使用本
155、报告或报告所载内容引起的任何损失承担任何责任。郑重声明业“续我我极是止回“4“年“国的以其他任何方式非法使用本报告的部分或者全部内容,否则均构成对本公司版权的侵害,本公司有权依法追究其法律责任。请务必阅读报告附注中的风险提示和免责声明72#page#酒国海证券EALANDSECURITIE国海证券研究所海外研究团队心怀家国,洞悉四海国海研究上海国海研究深圳国海研究北京上海市黄浦区绿地外滩中心C1栋深圳市福田区竹子林四路光大银北京市海淀区西直门外大街168国海证券大厦号腾达大厦25F行大厦28F邮编:200023邮编:518041邮编:100044电话:021-61981300电话:0755-83706353电话:010-88576597#page#