传媒行业专题研究:Vidu~国内AI视频生成模型新突破-240509(23页).pdf

编号:161770 PDF 23页 2.59MB 下载积分:VIP专享
下载报告请您先登录!

传媒行业专题研究:Vidu~国内AI视频生成模型新突破-240509(23页).pdf

1、 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。1 证券研究报告 传媒传媒 Vidu-国内国内 AI 视频生成模型新突破视频生成模型新突破 华泰研究华泰研究 传媒传媒 增持增持 (维持维持)研究员 朱珺朱珺 SAC No.S0570520040004 SFC No.BPX711 +(86)10 6321 1166 研究员 吴珺吴珺 SAC No.S0570523100001 +(86)755 8249 2388 行业走势图行业走势图 资料来源:Wind,华泰研究 重点推荐重点推荐 股票名称股票名称 股票代码股票代码 目标价目标价 (当地币种当地币种)投资评级投资评级 昆仑万维 3

2、00418 CH 50.09 买入 捷成股份 300182 CH 6.16 买入 光线传媒 300251 CH 13.60 买入 资料来源:华泰研究预测 2024 年 5 月 09 日中国内地 专题研究专题研究 全球全球 AI 大模型持续迭代,持续看好视频等多模态发展前景大模型持续迭代,持续看好视频等多模态发展前景 今年以来,全球 AI 大模型端都持续迭代升级,包括海外的 Sora、Llama3等,国内的 Kimi、昆仑天工 AI、阶跃星辰等。4 月 27 日,北京生数科技有限公司联合清华大学发布了中国首个长时长、高一致性、高动态性视频大模型 Vidu。行业的发展进度有望不断催化传媒相关板块的

3、发展,我们看好:1)AI 视频大模型依赖多样化训练数据,高质量视频素材库价值凸显;2)AI 大模型助力应用场景发展。我们推荐:昆仑万维、光线传媒、捷成股份、值得买。其他产业链标的包括华策影视、中文在线、中广天择、掌阅科技等。Vidu:国内:国内 AI 视频生成模型新突破视频生成模型新突破 Vidu 采用了团队原创的 Diffusion 与 Transformer 融合的架构 U-ViT,能够一键生成长达 16 秒、分辨率达到 1080P 的高清视频内容,其拥有丰富的想象力,能够模拟真实物理世界,并具备多镜头生成、时空一致性高等特点。核心团队来源于清华大学人工智能团队,首席科学家为清华人工智能研

4、究院副院长朱军。公司的多模态大模型为全栈自研,能够融合文本、图像、3D、视频等多模态信息。除文生视频外,公司在文生图、3D 生成等多模态能力上均有所造诣。Vidu 快速进化,与快速进化,与 Sora 差距不断缩小差距不断缩小 2024 年 1 月,生数团队实现 4 秒视频的生成,已可以达到 Pika、Runway的效果,至 3 月底实现 8 秒视频生成,4 月实现 16 秒视频生成,在 3 个月内生成时长提升至 4 倍,且据 4 月 27 日中关村论坛中生数领军人朱军的发言,Vidu 会以更快的速度迭代,与 Sora 差距将越来越小。Vidu 生成视频的运动幅度较大。除 Sora 外,目前文/

5、图生视频较难做到让人物做出复杂动作,因此为了保证画面畸变最小,视频生成的策略为选择小幅度的运动,较难设计复杂动作,难以处理场景和人物的一致性问题。Vidu 在保证了时空一致性的前提下运动幅度较大。分辨率赶上第一梯队,但仍为固定比例尺寸。Vidu 模型使用模型使用 U-ViT 架构,多模态、效果好、成本低架构,多模态、效果好、成本低 在 U-ViT 前,Diffusion 模型中的主流主干(backbone)一直为基于 CNN 的U-Net。U-ViT 是生数科技团队设计的一种简单通用的、基于 ViT 的架构,使用 Diffusion 生成图像,打响了扩散模型中 CNN 被 Transforme

6、r 取代的第一枪。模型首先对输入图像进行分割处理(分割为 patch),与时间和条件一道表示为 token 后通过 Embedding 层,随后经过 Transformer Block 后输出为 token,并通过一个线性层转为图块,最后通过一个可选的 3X3 卷积层输出为最终结果。此外,U-ViT 成本优势大幅领先,主要得益于 ViT 架构的训练成本较低。风险提示:竞争加剧,模型发展进度低于预期,政策监管风险等。(38)(26)(14)(2)10May-23Sep-23Jan-24May-24(%)传媒沪深300 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。2 传媒传媒 正文

7、目录正文目录 Vidu:国内:国内 AI 视频生成模型新突破视频生成模型新突破.3 明星创业公司,中国视频大模型重大突破明星创业公司,中国视频大模型重大突破.3 团队核心成员来自清华团队核心成员来自清华团队,已实现三轮融资团队,已实现三轮融资.3 多模态布局,涵盖图片、视频、多模态布局,涵盖图片、视频、3D 等领域等领域.4 视频模型横向比较:视频模型横向比较:Vidu 快速进化,与快速进化,与 Sora 差距不断缩小差距不断缩小.5 Vidu 模型:模型:U-ViT,多模态、效果好、成本低,多模态、效果好、成本低.9 理论端:自理论端:自 ViT 诞生后,诞生后,CV 与与 NLP 再无阻隔

8、再无阻隔.9 应用端:应用端:U-ViT 架构受架构受 U-Net 启发,为图像生成而来启发,为图像生成而来.10 结构:向结构:向 U-NeT 拜师学艺,换下拜师学艺,换下 CNN、换上、换上 Transformer,为图像生成而来,为图像生成而来.10 结果:质量与结果:质量与 U-Net 不分伯仲,成本优势大幅领先不分伯仲,成本优势大幅领先.12 投资建议投资建议.15 预计文生视频将对影视、营销与游戏行业产生较大影响预计文生视频将对影视、营销与游戏行业产生较大影响.15 投资逻辑投资逻辑:沿沿“素材库素材库”与与“大模型大模型”两条主线布局两条主线布局.15 主线一:主线一:AI 视频

9、大模型依赖多样化训练数据,高质量视频素材库价值凸显视频大模型依赖多样化训练数据,高质量视频素材库价值凸显.15 主线二:主线二:AI 大模型,助力应用场景发展大模型,助力应用场景发展.17 风险提示风险提示.20 8XeZdXfVbU8XbZfV6MaObRtRoOtRmQjMmMtOfQoPqR6MqRoPMYnOoOxNsQnO 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。3 传媒传媒 Vidu:国内:国内 AI 视频生成模型新突破视频生成模型新突破 明星创业公司,中国视频大模型重大突破明星创业公司,中国视频大模型重大突破 1)2024 年 4 月 27 日,中关村论坛未来

10、人工智能先锋论坛上,北京生数科技有限公司联合清华大学发布了中国首个长时长、高一致性、高动态性视频大模型,其采用了团队原创的Diffusion 与 Transformer 融合的架构 U-ViT,该架构不采用插帧的多步骤处理方式来生成视频,而是通过单一步骤“端到端”直接生成内容,从文本到视频的转换是直接、连续的。2)Vidu 能够一键生成长达 16 秒、分辨率达到 1080P 的高清视频内容,其拥有丰富的想象力,可以模拟真实物理世界中细节复杂且符合物理规律的场景,例如合理的光影效果、细腻的人物表情等,还可生成具有深度和复杂性的超现实主义内容(例如“戴珍珠耳环的猫”)。图表图表1:Vidu 官方演

11、示视频之一,能够模拟真实世界的物理特性官方演示视频之一,能够模拟真实世界的物理特性 图表图表2:Vidu 官方演示视频之“戴珍珠耳环的猫”,想象力较高官方演示视频之“戴珍珠耳环的猫”,想象力较高 注:Prompt“画室里的一艘船驶向镜头”资料来源:PixWeaver,华泰研究 注:Prompt“这是一只蓝眼睛的橙色猫的肖像,慢慢地旋转,灵感来自维米尔的戴珍珠耳环的女孩,画面上戴着珍珠耳环,棕色头发像荷兰帽一样,黑色背景,工作室灯光”资料来源:PixWeaver,华泰研究 团队核心成员来自清华团队,已实现三轮融资团队核心成员来自清华团队,已实现三轮融资 2023 年 6 月,公司宣布完成近亿元人

12、民币的天使轮融资,由蚂蚁集团领投,BV 百度风投、卓源资本与卓源亚洲跟投;此后,公司在 2023 年 8 月完成了数千万元人民币的天使+轮融资,该轮融资由锦秋基金独家投资;2024 年 3 月,公司已完成三轮融资,融资额达数亿元人民币,投资方包括启明创投、智谱 AI、BV 百度风投、锦秋基金等机构。图表图表3:生数科技已进行三轮融资生数科技已进行三轮融资 序号序号 日期日期 融资额融资额 轮次轮次 估值估值 投资方投资方 1 2024/3/12 数亿人民币 A 轮-启明创投 锦秋基金 智谱 AI BV 百度风投 卓源亚洲 2 2023/8/10 数千万人民币 天使+-锦秋基金 3 2023/6

13、/19 近亿人民币 天使轮 1 亿美元 蚂蚁集团 BV 百度风投 卓源亚洲 卓源资本 资料来源:证券时报,华泰研究 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。4 传媒传媒 核心团队来源于清华大学人工智能团队,首席科学家为清华人工智能研究院副院长朱军核心团队来源于清华大学人工智能团队,首席科学家为清华人工智能研究院副院长朱军。北京生数科技有限公司成立于2023年3月6日,核心成员主要来自清华大学人工智能学院,其首席科学家朱军为 IEEE Fellow、清华大学计算机系教授与人工智能研究院副院长、清华智能技术与系统国家重点实验室主任。此外,公司的 CEO 唐家渝是 THUNLP

14、组成员,CTO鲍凡长期关注扩散模型领域研究并主导了 U-ViT 和 UniDiffuser,其均为人工智能和扩散模型领域有着深厚研究的专家,此外还汇集了来自阿里、腾讯、字节等知名科技公司的顶尖人才。公司团队致力于贝叶斯机器学习的理论和算法研究,是国际上较早研究深度概率生成模型公司团队致力于贝叶斯机器学习的理论和算法研究,是国际上较早研究深度概率生成模型的团队之一的团队之一。工作主要面向针对深度生成式模型的骨干网络、高速采样、可控生成、大模型训练等全栈底层原创研发。生数科技团队在 ICML、NeurIPS、ICLR 等计算机顶刊发了20 多篇相关论文,扩散模型是团队的主要发力阵地。先后提出的采样

15、算法 Analytic-DPM、DPM-Solver 等成果,被 DALLE、Stable Diffusion 等应用。图表图表4:生数科技在通用架构、高速采样和多模型训练等领域均有较大技术积淀生数科技在通用架构、高速采样和多模型训练等领域均有较大技术积淀 领域领域 论文名称论文名称 通用架构 All are Worth Words:A ViT Backbone for Diffusion Models(CVPR 2023)UniDiffuser:One Transformer Fits All Distributions in Multi-Modal Diffusion at Scale(I

16、CML 2023)高速采样 Analytic-DPM:an Analytic Estimate of the Optimal Reverse Variance in Diffusion Probabilistic Models(ICLR 2022)DPM-Solver:A Fast ODE Solver for Diffusion Probabilistic Model Sampling in Around 10 Steps(NeurIPS 2022)Estimating the Optimal Covariance with Imperfect Mean in Diffusion Proba

17、bilistic Models(ICML 2022)DPM-Solver-v3:Improved Diffusion ODE Solver with Empirical Model Statistics(NeurIPS 2023)高效训练 Memory efficient optimizers with 4-bit states Training Transformers with 4-bit Integers Towards Accelerated Model Training via Bayesian Data Selection 可控生成 A Closer Look at Paramet

18、er-Efficient Tuning in Diffusion Models EGSDE:Unpaired Image-to-Image Translation via Energy-Guided Stochastic Differential Equations(NeurIPS 2022)Equivariant Energy-Guided SDE for Inverse Molecular Design(ICLR 2023)多模态训练 ProlificDreamer:High-Fidelity and Diverse Text-to-3D Generation with Variation

19、al Score Distillation(NeurIPS 2023)ControlVideo:Conditional Control for One-shot Text-driven Video Editing and Beyond 强化学习 Contrastive Energy Prediction for Exact Energy-Guided Diffusion Sampling in Offline Reinforcement Learning(ICML 2023)Offline reinforcement learning via high-fidelity generative

20、behavior modeling 基础理论 Improved Techniques for Maximum Likelihood Estimation for Diffusion ODEs(ICML 2023)Robust Classification via a Single Diffusion Model Diffusion models and semi-supervised learners benefit mutually with few labels(NeurIPS 2023)注:截止于 2024 年 4 月 29 日 资料来源:北京生数科技官网,华泰研究 多模态布局,涵盖图片

21、、视频、多模态布局,涵盖图片、视频、3D 等领域等领域 公司的多模态大模型为全栈自研,能够融合文本、图像、公司的多模态大模型为全栈自研,能够融合文本、图像、3D、视频等多模态信息、视频等多模态信息。除文生视频外,公司在文生图、3D 生成上均有所造诣,其主要得益于 ViT 结构打通了 CV 与 NLP,使得多模态成为可能。免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。5 传媒传媒 图表图表5:北京生数科技的生物体、静态文生图还原度较高北京生数科技的生物体、静态文生图还原度较高 图表图表6:北京生数科技的风景文生图还原度较高北京生数科技的风景文生图还原度较高 资料来源:PixWeav

22、er,华泰研究 资料来源:PixWeaver,华泰研究 图表图表7:北京生数科技的北京生数科技的 3D 模型生成模型生成 资料来源:VoxCraft,华泰研究 视频模型横向比较:视频模型横向比较:Vidu 快速进化,与快速进化,与 Sora 差距不断缩小差距不断缩小 整体来看,整体来看,Vidu 生成结果的动作幅度、画面一致性均处于国内领先水准。生成结果的动作幅度、画面一致性均处于国内领先水准。Vidu 目前已经开始内测,表明其并非概念型工具,侧面反映 Vidu 的技术水准较为成熟。与国内文生视频模型对比,Vidu 的特点表现在:1.动作幅度、画面一致性领先;2.采用 U-ViT 模型架构(其

23、优势将在下一章节详述)。图表图表8:Vidu 领跑国内的文生视频模型领跑国内的文生视频模型 国家国家 公司公司 名称名称 动作幅度动作幅度 一致性一致性 是否开源是否开源 推出时间推出时间 是否已经是否已经 对公众开放对公众开放 底层模型结构底层模型结构 底层模型结构底层模型结构 是否开源是否开源 中国 上海人工智能实验室 书生筑梦 低 中高 否 2024 年 2 月 否 Animate Diff 是 中国 超讯通信 Etna 中 中高 否 2024 年 3 月 否 基于 DiT 否 中国 字节跳动 Dreamina 中高 低 否 2024 年 3 月 是,内测是,内测 可能基于 MagicV

24、ideo 是 中国 商汤科技/否 2024 年 4 月 否/否 中国 北京数科 Vidu 中高中高 中高中高 否 2024 年 4 月 是,内测是,内测 基于 U-ViT 是 资料来源:各公司官网,华泰研究 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。6 传媒传媒 Vidu 的视频生成时长仅次于的视频生成时长仅次于 Sora,且可生成时长进步速度较快。,且可生成时长进步速度较快。时长方面,Runway 推出 的 Gen 模型目前已经更新至 Gen2,其最长可生成 16 秒视频,与 Vidu 一并位列第二,仅 次于 Sora 的 60 秒钟。2024 年 1 月,生数团队实现 4

25、 秒视频的生成,已可以达到 Pika、Runway 的效果,至 3 月底达到 8 秒,4 月达到 16 秒、进步快速。且据 4 月 27 日中关村 论坛中生数领军人朱军的发言 Vidu 会以更快的速度迭代,与 Sora 差距将越来越小。商业 化方面,目前主流文生视频的价格均按月收费,海外收费为 8-95 美元/月不等。图表图表9:目前文生视频的定价整体较高,目前文生视频的定价整体较高,Vidu 的视频生产时长仅次于的视频生产时长仅次于 Sora 团队团队 文生视频推出时间文生视频推出时间 收费收费 可生成时长可生成时长 Runway 2023 年 6 月 免费版每天可生成 5 个视频;付费版定

26、价 15-95 美元/月 4-16 秒 Pika 2023 年 11 月 免费版每天可生成 15 个视频;付费版定价 8-58 美元/月 3-7 秒 Sora 2024 年 2 月 未开放 最长 60 秒 Dreamina 2024 年 3 月 免费版每天可生成 5 个视频;付费版 69 人民币/月起 3-9 秒 Vidu 2024 年 4 月 未开放 最长 16 秒 资料来源:各公司官网,华泰研究 相比于相比于 Runway,Vidu 生成视频的运动幅度更大生成视频的运动幅度更大。除 Sora 外,目前文/图生视频较难做到让人物做出复杂动作,因此为了保证画面畸变最小,视频生成的策略为选择小幅

27、度的运动,较难设计复杂动作,难以处理场景和人物的一致性问题。目前Sora在视频生成中领先较多,在除 Sora 外,Vidu 在保证了时空一致性的前提下运动幅度较大。图表图表10:Sora 演示视频的开始部分演示视频的开始部分 图表图表11:Sora 演示视频首尾差异较大,视频运动幅度领先演示视频首尾差异较大,视频运动幅度领先 资料来源:Sora,华泰研究 资料来源:Sora,华泰研究 图表图表12:Vidu 官方演示视频的开始部分官方演示视频的开始部分 图表图表13:Vidu 官方演示视频结束部分,多物体变化官方演示视频结束部分,多物体变化 资料来源:PixWeaver,华泰研究 资料来源:P

28、ixWeaver,华泰研究 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。7 传媒传媒 图表图表14:用用 Runway 制作的视频开始部分制作的视频开始部分 图表图表15:视频结束部分,画面从其侧面转向正面,运动幅度较小视频结束部分,画面从其侧面转向正面,运动幅度较小 注:将运动幅度参数调至 10(最大)资料来源:Runway,华泰研究 注:将运动幅度参数调至 10(最大)资料来源:Runway,华泰研究 分辨率赶上第一梯队,但仍为固定比例尺寸分辨率赶上第一梯队,但仍为固定比例尺寸。目前除 Sora 可以在 1920X1080 至 1080X1920间以任意尺寸进行生成,其余头

29、部文生视频模型均为固定比例生成。就分辨率而言,Vidu使用了支持 1080p 输出的端到端模型,在同业中处于第一梯队。图表图表16:Vidu 生成分辨率属于第一梯队生成分辨率属于第一梯队 团队团队 生成尺寸生成尺寸 每秒帧数每秒帧数 其他其他 Runway 固定比例,可生成 720p/2K 24 插帧/端到端 Pika 固定比例,最高 1024x576,帧速度 8 帧/秒 8-24 插帧 Sora 1920X1080 与 1080X1920 之间任意尺寸/端到端 Dreamina 固定比例/Vidu 固定比例,最高 1080p/端到端 资料来源:各公司官网,华泰研究 Vidu 一致性较强,多镜

30、头中画面依旧连贯一致性较强,多镜头中画面依旧连贯。AI 生成视频的一大困难是时间的连贯性,目前龙头 Sora 能记住视频中的人和物体,在其被暂时挡住或移出画面后依然能按照物理逻辑地让视频保持连贯性。而 Vidu 此次公布的演示视频中具有多镜头的视频,其展示了较高的连贯一致性。图表图表17:Vidu 多镜头视角的视频生成的第一部分多镜头视角的视频生成的第一部分 图表图表18:Vidu 多镜头视角的视频生成第二部分,衔接自然多镜头视角的视频生成第二部分,衔接自然 注:Prompt“在一个古色古香的海边小屋里,阳光沐浴着房间,镜头缓慢过渡到一个阳台,俯瞰着宁静的大海,最后镜头定格在漂浮着大海、帆船和

31、倒影般的云彩。”资料来源:PixWeaver,华泰研究 注:Prompt“在一个古色古香的海边小屋里,阳光沐浴着房间,镜头缓慢过渡到一个阳台,俯瞰着宁静的大海,最后镜头定格在漂浮着大海、帆船和倒影般的云彩。”资料来源:PixWeaver,华泰研究 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。8 传媒传媒 图表图表19:相同相同 Prompt,Runway 生成的生成的 18 秒视频首帧秒视频首帧 图表图表20:Runway 生成的生成的 18 秒视频首尾帧画面风格差异较大秒视频首尾帧画面风格差异较大 注:Prompt“在一个古色古香的海边小屋里,阳光沐浴着房间,镜头缓慢过渡到一

32、个阳台,俯瞰着宁静的大海,最后镜头定格在漂浮着大海、帆船和倒影般的云彩。”资料来源:Runway,华泰研究 注:Prompt“在一个古色古香的海边小屋里,阳光沐浴着房间,镜头缓慢过渡到一个阳台,俯瞰着宁静的大海,最后镜头定格在漂浮着大海、帆船和倒影般的云彩。”资料来源:Runway,华泰研究 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。9 传媒传媒 Vidu 模型:模型:U-ViT,多模态、效果好、成本低,多模态、效果好、成本低 理论端:自理论端:自 ViT 诞生后,诞生后,CV 与与 NLP 再无阻隔再无阻隔 ViT(VisionTransformers)为谷歌团队)为谷歌团

33、队 2020 年提出,是视觉领域中首个完全基于年提出,是视觉领域中首个完全基于Transformer 的模型,其模型效果与的模型,其模型效果与 CNN 相当、打通了视觉领域(相当、打通了视觉领域(CV)与自然语言处理)与自然语言处理(NLP)两大领域)两大领域。ViT 是一种基于 Transformer 架构的深度学习模型,由 GoogleBrain 团队于 2020 年发表在Arxiv 的论文“AnImageisWorth16x16Words:TransformersforImageRecognitionatScale”中提出,主要用于视觉任务。在 ViT 被提出前,注意力机制或与 CNN

34、结合使用,或用来取代 CNN的某些组件,CNN结构并未被彻底颠覆。因此,ViT 的创新在于其完全抛弃了 CNN,直接将标准的 Transformer 模型应用于图像分类等视觉任务,将 CV 与 NLP 连接起来。经过大量数据预训练的 ViT取得了与 CNN媲美甚至更好的性能,而所需计算资源大大下降;若未预训练,Transformer 会缺乏需要大量学习才能得到的先验知识归纳偏置,如相邻区域特征相似和平移等变性等,导致结果不如 CNN 理想。ViT 的提出,表明经过大量数据预训练后的 Transformer 模型能够直接应用于视觉处理任务,使得 CV 与 NLP 领域的壁垒被打通,以 Trans

35、former 为底层架构的模型在多模态领域中的障碍越发减少。图表图表21:在对图片进行遮掩、偏移、对抗和重新组合中,在对图片进行遮掩、偏移、对抗和重新组合中,ViT 效果胜过效果胜过 CNN 资料来源:aseerMM,RanasingheK,KhanSH,etal.IntriguingpropertiesofvisiontransformersJ.AdvancesinNeuralInformationProcessingSystems,2021,34:23296-23308.,华泰研究 图表图表22:图像分类任务中,目前表现最好的模型图像分类任务中,目前表现最好的模型 OmniVec 基于基于

36、 ViT 架构架构 注:数据集为 ImageNet,截止 2024 年 4 月 29 日 资料来源:paperwithcode,华泰研究 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。10 传媒传媒 图表图表23:ViT 基础架构流程图,演示图片如何被基础架构流程图,演示图片如何被 Tranformer 模型分类或回归模型分类或回归 资料来源:DosovitskiyA,BeyerL,KolesnikovA,etal.Animageisworth16x16words:TransformersforimagerecognitionatscaleJ.arXivpreprintarXiv

37、:2010.11929,2020.,华泰研究 应用端:应用端:U-ViT 架构受架构受 U-Net 启发,为图像生成而来启发,为图像生成而来 结构:向结构:向 U-NeT 拜师学艺,换下拜师学艺,换下 CNN、换上、换上 Transformer,为图像生成而来,为图像生成而来 在在 U-ViT 前,前,Diffusion 模型中的主流主干(模型中的主流主干(backbone)一直为基于)一直为基于 CNN 的的 U-Net。U-net是 2015 年的论文 U-Net:ConvolutionalNetworksforBiomedicalImageSegmentation 中首次提出的,其在生物

38、医学图像分割领域取得了显著的效果,并因此被广泛应用于各种图像分割任务中。由于网络图形似英文字母“U”,故称为 U-Net。具体来看,基于 CNN 的 U-Net具有一组下采样(downsampling)块和一组上采样(upsampling)块,且以长跳跃连接(longskipconnection)贯穿整个网络。其中,长跳跃连接有助于解决 CNN 在处理图像分割等任务时可能出现的信息丢失问题,也是随后 U-Net 重点借鉴的部分。图表图表24:U-Net 组织图,其使用组织图,其使用 Encoder-Decoder 结构、以结构、以 CNN 作为主干,用跳跃连接解决了由于下采样所丢失掉的细节损失

39、作为主干,用跳跃连接解决了由于下采样所丢失掉的细节损失 注:蓝/白色框表示特征图;蓝色箭头表示 3x3 卷积,用于特征提取;灰色箭头表示跳跃连接,用于特征融合;红色箭头表示池化,用于降低维度;绿色箭头表示上采样,用于恢复维度;青色箭头表示 1x1 卷积,用于输出结果 资料来源:RonnebergerO,FischerP,BroxT.U-net:ConvolutionalnetworksforbiomedicalimagesegmentationC/Medicalimagecomputingandcomputer-assistedinterventionMICCAI2015:18thintern

40、ationalconference,Munich,Germany,October5-9,2015,proceedings,partIII18.SpringerInternationalPublishing,2015:234-241.,华泰研究 U-ViT是生数团队设计的一种简单通用的、基于是生数团队设计的一种简单通用的、基于ViT的架构,用于使用的架构,用于使用Diffusion生成图像。生成图像。打响扩散模型中打响扩散模型中 CNN 被被 Transformer 取代的重要一枪取代的重要一枪。生数科技团队自主研发并于 2022年 9 月提出了 U-ViT,其早于 Sora 采用的 DiT(D

41、iffusionTransformer),是全球首个将Diffusion 与 Transformer 融合的知名架构。U-ViT 通过将广泛应用的 U-Net 模型中的 CNN部分替换为 Transformer 架构,得以同时结合了两者的优势,为图像和视频生成提供了一种新的方法论。免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。11 传媒传媒 模型首先对输入图像进行分割处理(分割为模型首先对输入图像进行分割处理(分割为 patch),与时间和条件一道表示为),与时间和条件一道表示为 token 后通后通过过 Embedding 层,随后经过层,随后经过 TransformerBlo

42、ck 后输出为后输出为 token,并通过一个线性层转,并通过一个线性层转为图块,最后通过一个可选的为图块,最后通过一个可选的 3X3 卷积层输出为最终结果卷积层输出为最终结果:1)遵循遵循 Transformers 的设计理念,的设计理念,U-ViT 将包括时间、条件和噪声图像在内的所有输入将包括时间、条件和噪声图像在内的所有输入都视作为都视作为 token。U-ViT 延续了 ViT 的方法,将带噪图片划分为多个区块之后,与时间 t、条件 c 和图像块一起转为 token 输入到 TransformerBlock。2)借鉴借鉴 U-Net,U-ViT 在在 Transformer 的浅层和

43、深层之间采用长跳转连接,总数量为的浅层和深层之间采用长跳转连接,总数量为(#Blocks-1)/2。长跳跃连接允许模型在处理数据时跳过某些层,从而帮助模型在深层网络中更有效地传递信息、避免了在训练深层网络时可能出现的梯度消失或爆炸问题。通过长跳转连接,模型可以保持对输入数据的高层次理解,同时也能够利用浅层网络的细节信息。此外,U-ViT 也证明了在基于扩散的图像建模中,CNN 中的下采样和上采样并非必须。3)最后添加最后添加 33 卷积块用以增加图片输出质量卷积块用以增加图片输出质量。U-ViT 在输出之前添加了一个可选、而非必须的 33 卷积块以获得更好的视觉质量。图表图表25:U-ViT

44、结构图,核心取代了结构图,核心取代了 U-Net 的的 CNN 部分,并重点强调了长跳转连接的重要性部分,并重点强调了长跳转连接的重要性 资料来源:BaoF,NieS,XueK,etal.Allareworthwords,华泰研究 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。12 传媒传媒 图表图表26:U-ViT 中加入长跳转连接的中加入长跳转连接的 FID 普遍高于未加入的模型普遍高于未加入的模型 图表图表27:在线性层后选择性加入在线性层后选择性加入 33 卷积块能提高图片生成质量卷积块能提高图片生成质量 注:(1)-(5)为加入长跳转连接的四种方法,以(1)为最优;FI

45、D 分数越低,即生成图像与真实图像的特征分布越接近,下同 资料来源:BaoF,NieS,XueK,etal.Allareworthwords:AvitbackbonefordiffusionmodelsC/ProceedingsoftheIEEE/CVFConferenceonComputerVisionandPatternRecognition.2023:22669-22679.,华泰研究 资料来源:BaoF,NieS,XueK,etal.Allareworthwords:AvitbackbonefordiffusionmodelsC/ProceedingsoftheIEEE/CVFConf

46、erenceonComputerVisionandPatternRecognition.2023:22669-22679.,华泰研究 结果:质量与结果:质量与 U-Net 不分伯仲,成本优势大幅领先不分伯仲,成本优势大幅领先 U-ViT 在大部分测试中与 U-Net 旗鼓相当,但其成本优势大幅领先:1)对于无条件学习(unconditionallearning):团队使用包含 50K 训练图像的 CIFAR10 和包含 162770 张人脸训练图像的 CelebA6464 数据集,发现同等参数的 U-ViT 与 U-Net相当,同时性能远优于 GenViT。2)对于类条件学习(class-co

47、nditionallearning):团队使用了 ImageNet 中分辨率为 6464、256256 和 512512 分辨率的数据集,包含来自 1K 个不同类的 1281167 个训练图像,同等参数的 U-ViT 结果与 U-Net 也无较大差异、甚至在 256256 中取得了最低 FID。图表图表28:在在 ImageNet256256 中,基于中,基于 U-ViT 的最优模型超越了基于的最优模型超越了基于 U-Net 的最优模型的最优模型 资料来源:BaoF,NieS,XueK,etal.Allareworthwords:AvitbackbonefordiffusionmodelsC/

48、ProceedingsoftheIEEE/CVFConferenceonComputerVisionandPatternRecognition.2023:22669-22679.,华泰研究 3)对于文生图领域:团队使用了分辨率为 256256 的数据集 MS-COCO,其中包含 82783个训练图像和 40504 个验证图像,每张图片都有 5 个图像标注。U-ViT 在 ms-coco 的256x256 数据集中的表现超越 U-Net,并随着模型层数增加、FID 值越发减少。免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。13 传媒传媒 图表图表29:在文生图领域中的在文生图领域中

49、的 MS-COCO 数据集中,数据集中,U-ViT 领先于领先于 U-Net 注:U-ViT-S/2(Deep)的层数为 17 层,比 U-ViT-S/2 多 4 层 资料来源:BaoF,NieS,XueK,etal.Allareworthwords:AvitbackbonefordiffusionmodelsC/ProceedingsoftheIEEE/CVFConferenceonComputerVisionandPatternRecognition.2023:22669-22679.,华泰研究 图表图表30:在文生图领域中的在文生图领域中的 MS-COCO 数据集中,数据集中,U-ViT

50、 与与 U-Net 生成图片的质量差异生成图片的质量差异 资料来源:BaoF,NieS,XueK,etal.Allareworthwords:AvitbackbonefordiffusionmodelsC/ProceedingsoftheIEEE/CVFConferenceonComputerVisionandPatternRecognition.2023:22669-22679.,华泰研究 4)成本优势:大幅领先于 U-Net 在参数量和训练成本相似的情况下,在参数量和训练成本相似的情况下,U-ViT 的表现较佳的表现较佳。在无分类器引导的情况下,U-ViT在不同的训练迭代中始终优于 U-N

51、et。在无分类器引导的情况下,U-ViT 的 FID 为 6.58,U-Net 的 FID 为 10.69。在无分类器引导比例为 0.4 的情况下,U-ViT 的 FID 为 2.29,U-Net的 FID 为 2.66,双双优于 U-Net。换言之,为达成同等 FID 值,U-ViT 的训练成本较 U-Net大幅下降,其主要得益于 ViT 架构的训练成本较低。免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。14 传媒传媒 图表图表31:在参数数量和计算成本(不含无分类器指导)相似的情况下,在参数数量和计算成本(不含无分类器指导)相似的情况下,U-ViT 成本优势大幅领先成本优势大

52、幅领先 U-Net 资料来源:BaoF,NieS,XueK,etal.Allareworthwords:AvitbackbonefordiffusionmodelsC/ProceedingsoftheIEEE/CVFConferenceonComputerVisionandPatternRecognition.2023:22669-22679.,华泰研究 图表图表32:ViT 架构的训练天数仅为基于架构的训练天数仅为基于 CNN 的的 ResNet 模型的三分之一模型的三分之一 资料来源:DosovitskiyA,BeyerL,KolesnikovA,etal.Animageisworth16

53、x16words:TransformersforimagerecognitionatscaleJ.arXivpreprintarXiv:2010.11929,2020.,华泰研究 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。15 传媒传媒 投资建议投资建议 预计文生视频将对影视、营销与游戏行业产生较大影响预计文生视频将对影视、营销与游戏行业产生较大影响 文生视频可通过提示词生成完整且有逻辑的视频,为创作者提供低成本、高效率的创作方文生视频可通过提示词生成完整且有逻辑的视频,为创作者提供低成本、高效率的创作方式。式。对影视行业的主要影响可能体现在:1)大幅降低制作门槛及成本。在空

54、间上,减少了对场景搭建、场地切换等特定资源的依赖,其可以用于生成逼真的特效场景降低制作成本。在时间上,也将大幅缩短影视拍摄的流程。让非专业团队也能够生产出专业水准的视频内容成为可能。2)丰富影视作品的创造性及风格。制作门槛及时间成本的大幅降低将加速影视内容的迭代,UGC 内容的专家化也将创造新的风格与形式,增强影视内容的吸引力与丰富度。3)对于具备创意和灵感优势的生产者更为受益,能更好的帮助他们产出优质的视频内容。文生视频对营销行业的影响体现在:文生视频对营销行业的影响体现在:1)预计将提升广告相关视频的创造效率。其能够快速生成广告宣传视频及商品演示视频,大幅降低广告相关内容的制作成本及时间,

55、预计有望取代低创造性、可复制的视频内容,小规模且缺乏创意人才的广告公司预计面临压力。2)提供灵感,增强广告吸引力。其有望为广告策划环节提供灵感,加速创意实现过程。3)更低成本定制化需求。其可大批量快速生成定制化的视频内容,以满足不同用户群体的需求,提升客户转化率及留存率。游戏:文生视频可被应用于游戏角色创立,场景开发等过程。游戏:文生视频可被应用于游戏角色创立,场景开发等过程。一定程度上看,游戏也是虚拟世界的一种体现,其对于物理世界的理解和模拟可以与游戏场景开发高度适配,可以帮助游戏开发者创立角色或背景故事。以 Sora 为例,其官方技术报告中指出,Sora 能够模拟如视频游戏的数字化过程,根

56、据官方视频演示,其能在控制Minecraft游戏角色进行基本操作的同时,高质量动态渲染游戏世界。可以预见,未来文生视频模型可能被应用生成游戏动画和场景等,增加游戏情感故事背景提高可玩性,游戏开发者的成本将被降低。投资逻辑投资逻辑:沿沿“素材库素材库”与与“大模型大模型”两条主线布局两条主线布局 随着全球 AI 大模型端都持续迭代升级,包括海外的 Sora、Llama3 等,国内的 Kimi、昆仑天工 AI、阶跃星辰等,行业的发展进度有望不断催化传媒相关板块的发展,因此我们看好:1)AI 视频大模型依赖多样化训练数据,高质量视频素材库价值凸显;2)AI 大模型助力应用场景发展。我们推荐:昆仑万维

57、、光线传媒、捷成股份、值得买。其他产业链标的包括华策影视、中文在线、中广天择、掌阅科技等。主线一:主线一:AI 视频大模型依赖多样化训练数据,高质量视频素材库价值凸显视频大模型依赖多样化训练数据,高质量视频素材库价值凸显 多模态大模型的进化依赖于大量多样化的训练数据持续投喂。从海外来看,Shutterstock具有全球知名的图片、视频和音乐素材库,其素材具有高分辨率和创意性。据 Shutterstock官网,其与 OpenAI 在 22 年 10 月签署六年合作协议,允许 OpenAI 在合作期间使用Shutterstock 平台内的图片、视频和音乐素材来训练 AI 模型。据美通社,23 年

58、7 月二者进一步扩大合作,OpenAI 获得了访问更多数据的许可。此外,24 年 3 月 20 日,谷歌被法国罚款 2.5 亿欧元,主因谷歌未经通知使用了法国媒体出版商和新闻机构的内容训练聊天机器人,违反欧盟知识产权规则。随着大模型发展优化,视频/语料素材库的价值有望放大。免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。16 传媒传媒 捷成股份:拥有国内最大的影视版权库,集版权采购、数字分捷成股份:拥有国内最大的影视版权库,集版权采购、数字分销、内容运营于一身销、内容运营于一身 据 23 年年报,作为国内领先的数字版权分销商、全媒体文化传播服务提供商、数字生活内容运营商,公司集版权

59、采购、数字分销、内容运营于一身,携手国内外千余家出品公司,积累了 10 万余小时的影视、动漫、节目版权内容,面向广电、互联网新媒体、运营商等媒体渠道进行数字化发行,全面覆盖数字电视、OTT、IPTV、电脑、平板、手机、户外流媒体等全媒体终端。一个由“海量数字内容矩阵”、“全产业媒体发行集群”和“全媒体终端交互式覆盖”形成的“云”、“端”、“场”一体化的运营模式,带来了上中下游全产业融合式服务的文化传播生态。可以预见 AIGC 相关技术将大大提升公司影视剧拍摄及相关影视内容二次创作效率,提升公司版权的多渠道、多模态运营价值。光线传媒:中国动画电影制作发行龙头,有望建立自有动画大模型光线传媒:中国

60、动画电影制作发行龙头,有望建立自有动画大模型 公司拥有彩条屋和光线动画两条业务线推动动画电影的创作、制作,经过多年的积累和成长,目前已经具备每年 2-3 部动画电影的生产能力。哪吒之魔童闹海 2 西游记之大圣闹天宫 姜子牙 2 大鱼海棠 2 朔风等多部动画电影的推进工作在顺利进行中;真人电影方面,公司同样拥有多个项目储备。公司具备的 IP 资源和项目储备,可为 AI 大模型数据训练提供丰富的素材库,特别是在动画、视觉特效和角色建模等方面,有助于提升 AI 模型在理解复杂叙事结构、生成高质量图像和视频内容方面的能力。公司在 24 年 3 月 14 日互动易回复,公司对市场上的新业态、新技术始终保

61、持积极关注,正在探讨可行的技术路径,不排除在动画领域建立自己的大模型。华策影视:丰富视频语料华策影视:丰富视频语料,成立成立 AIGC 应用研究院应用研究院 据 23 年年报,版权业务上,公司 2023 年完成对森联公司的收购,集聚了国内版权市场较优秀的管理和销售人才,在新媒体运营、新技术探索等领域不断拓展创新业态;影视版权数量升至 5 万小时,持续推进科技化、智能化的短视频和镜头制作。据 24 年 3 月 22 日 投资者关系活动记录表,公司的视频语料分两种,包括文字语料,如小说、剧本等;视频语料,如影视作品、视频拍摄素材等。同时公司全面布局 AI,23 年 6 月成立 AIGC 应用研究院

62、,组建了涵盖艺术指导、产业顾问、技术开发、培训指导等在内的联合工作团队。目前公司建立了文生文、文生图、文生视频、文生音频的实用型 AI 应用/工具矩阵。中广天择:视频内容生产的领军者,已为万兴科技模型训练提供优质版权数据中广天择:视频内容生产的领军者,已为万兴科技模型训练提供优质版权数据 公司是长沙广电控股的国有文化企业,内容事业部深耕内容领域,以研发和制作纪录片、大型专题节目、综艺等为主营业务;平台事业部扎根版权运营多年,搭建了“淘剧淘”、“节目购”两大全国交易平台,围绕版权创造、版权保护、版权交易等领域助推版权产业发展。公司不断发掘新资源,稳住版权交易,23 年“节目购”打通与央视自制内容

63、的合作发行渠道,引入多家卫视、省级地面电视台的热门节目,为发行产品注入新力量,全年共交易节目超 68000 期;“淘剧淘”与全国 300 余家版权公司达成版权推广、版权发行等合作,通过不断挖掘剧源,全年交易超 94000 期。在广电行业整体不景气的情况下,公司版权交易经营业绩稳中有进。慈文传媒:电视剧头部公司,积极探索慈文传媒:电视剧头部公司,积极探索 AI 与影视文娱业务结合可能与影视文娱业务结合可能 公司全面梳理存量 IP 以及原创储备项目,储备了一批现实主义题材和具有较大 IP 影响力的剧集项目。同步推进多元题材类型的项目储备及开发,致力于形成播出一批、制作一批、研发一批的项目梯次,保障

64、精品内容的持续产出,不断巩固公司在头部内容市场的领先地位。据公司 24 年 3 月 8 日互动易回复,公司持续关注人工智能技术的发展在影视行业的应用,关注市场需求与发展趋势,积极推进短剧、互动剧等多样化创新产品的合作开发,努力探索人工智能与影视文娱业务结合的可能性。公司及子公司已经开始逐步尝试在自身产品上使用市场上的自动生成图片、文案等相关技术以缩短周期、提升效率的应用。免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。17 传媒传媒 唐德影视:优质唐德影视:优质 IP 影视资源储备丰富,高度重视影视资源储备丰富,高度重视 AI 技术研发和应用技术研发和应用 背靠浙江广电,公司影视主

65、营业务持续稳定增长,成功制作并推出了包括电视剧永不消逝的电波、武媚娘传奇、东宫以及电影绝地逃亡在内的多部作品;参与出品优质电视剧那年花开月正圆、急诊科医生和热门电影心花路放、我不是药神等。公司在影视行业深耕超十年,积累了丰富的 IP 资源和行业顶尖人才,具备深厚的行业背景和资本运作的丰富经验。据公司 24 年 3 月 1 日互动易回复,公司高度重视各类 AI 技术的研发和应用,对以 Sora 为代表的新兴 AI 文生视频技术平台保持密切关注,积极谋求与有关技术公司开展合作,为大家提供更好的产品和服务。主线二:主线二:AI 大模型,助力应用场景发展大模型,助力应用场景发展 应用接入 AI 大模型

66、(包括文本大模型和多模态大模型),有助于提升用户体验、扩展应用场景以及创新商业模式。基于大模型的文本理解及处理能力,有望推动影视内容制作、在线阅读、教育、营销、电商等多场景体验优化、效率提升。值得买值得买:国内头部消费决策平台,推出自研:国内头部消费决策平台,推出自研 AI 购物模型购物模型 据 24 年 2 月 28 日互动易回复,AIGC 是公司的战略重点之一,公司在 23 年成立了专门的AI 事业部,高度重视在 AIGC 领域的投入与布局,正在全方位推进 AIGC 对公司业务的转型与升级。在应用层面,公司主要围绕内容的识别和生成、智能用户画像和推荐、智能营销策略三个方向开展研究,并在文、

67、图、短视频、直播等领域不断推进产品开发,相应的应用也在陆续推出。24 年 2 月 29 日,值得买科技自研 AI 购物助手“小值”正式上线,“小值”是基于值得买消费大模型所研发的 Agent 产品,能通过对话深度理解用户需求,为消费者提供个性化建议。昆仑万维:持续丰富昆仑万维:持续丰富 AI 业务多元化产品矩阵业务多元化产品矩阵 公司基于自研“天工”系列基座大模型持续丰富 AI 业务多元化产品矩阵,目前已构建起 AI大模型、AI 搜索、AI 音乐、AI 视频、AI 社交、AI 游戏等 AI 业务矩阵。同时公司以增资等方式推进 AI 算力芯片的研发,布局 AI 全产业链。AI 搜索及 AI 音乐

68、是公司当下重点发力方向,同时我们看到公司出海测试的 AI 社交产品 Linky 最新也快速起量。我们看好公司在 AI赛道的综合竞争力,期待 C 端应用天工 AI 助手后续用户数及下载量的持续增长。中文在线:中文在线:AI 赋能赋能 IP 改编,“中文逍遥”大模型改编,“中文逍遥”大模型 公司于 2023 年 10 月发布自研 AI 大模型“中文逍遥”1.0 版本,可实现一键生成万字小说、一张图写一部小说、一次读懂 100 万字小说等,赋能初学者和专业作家。此外,公司也在研发推动更多 AI 多模态产品落地,目前公司已使用 AI 生成了漫画、动态漫画。公司在 AI多模态领域持续投入,未来在 AI

69、多模态加持下,IP 开发制作难度大幅下降,制作周期大幅缩短,打破产能瓶颈,加速了 IP 商业化落地的进展,借助 AI 大幅提升公司 IP 的商业化变现速度。掌阅科技:深耕数字阅读多年,积极通过掌阅科技:深耕数字阅读多年,积极通过 AI 赋能阅读场景赋能阅读场景 公司主营业务为互联网数字阅读平台服务、版权产品等。其旗舰产品为“掌阅”APP。公司通过多年的积累,数字内容资源丰富,品类众多,包括图书、有声读物、杂志、漫画、自出版等多种类型,对优质重磅书始终保持了较高的覆盖比例,能够满足用户各种类别、各种场景的阅读需求。同时公司积极拥抱 AI 技术,将生成式 AI 能力与阅读场景相融合,23 年推出了

70、阅爱聊产品,依托 AI 大模型赋能数字阅读场景,为用户提供创新体验的阅读交互方式。阅爱聊产品聚焦阅读过程中的“聊书”、“聊人”两个场景,为用户提供创新体验的阅读交互方式,在 2023“全球数字经济大会”上被评选为北京市通用人工智能大模型行业应用典型场景案例。免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。18 传媒传媒 超讯通信:灵犀妙笔超讯通信:灵犀妙笔 AI 再升级,七火山可生成再升级,七火山可生成 15 秒视频秒视频 灵犀妙笔 APP 产品通过垂类细分,简化用户指令输入,提供所见即所得的生成式 AI 服务,涵盖 12 大板块及 785 个智慧体,覆盖情感、美食、运动、旅游等全

71、方位生活场景。打通大模型链路后,灵犀妙笔可新增长文本处理功能,可提升用户 AI 工具的工作效率,实现阅读速度提高、长文本一键生成、文体变换等多种功能,有望放大 AI 模型优点,共同缔造优质AI 应用生态。七火山科技 3 月在其官方公众号中发布,经过深度学习和人工智能领域前沿技术的深入研究,Etna 模型正式发布。Etna 模型不仅能够根据用户的文本提示创建长达 15秒的逼真视频,而且实现了 4K 分辨率和 60 帧每秒的超高流畅度。其他的 AI 视频最高也只有每秒 30 帧。图表图表33:Etna 官方演示视频画面清晰、分辨率较高官方演示视频画面清晰、分辨率较高 图表图表34:Etna 官网显

72、示“即将到来”,内测已在路上官网显示“即将到来”,内测已在路上 资料来源:Etna,华泰研究 资料来源:Etna,华泰研究 世纪天鸿:已推出小鸿助教世纪天鸿:已推出小鸿助教 AI 产品,功能丰富产品,功能丰富 公司多年来深耕 K12 教育领域,公司积极运用 AI 赋能主业。据 24 年 3 月 12 日互动易回复,公司已结合人工智能技术推出小鸿助教。“小鸿助教”是一款基于大语言模型研发的教师端助教产品。据 24 年 3 月 22 日互动易回复,公司的 AI+教育产品“小鸿助教”已于 4.0版本新增“文档问答”功能,可以输入 100MB、10 万字之内的文档,格式可以为 PDF、Word、图片、

73、PPT、TXT 等,通过对文档的解析分析帮助老师轻松阅读文献、输出内容总结、提炼中心思想、解答文档中问题、根据文档出题并给出答案等功能。浙文互联:国内领先数字营销集团,“浙文互联:国内领先数字营销集团,“AI+”模式布局引领营销升级”模式布局引领营销升级 公司的“AI+创新业务”发展路径渐清晰,搭建了图片及场景多模态的 AIGC 数字工具矩阵,批量化工具类应用已在效果营销业务板块落地,现已应用于金融、网服、电商等行业领域的客户服务。据 24 年 3 月 15 日互动易回复,公司已推出文生图、文生文等 AIGC 应用工具,公司后续会持续探索文生图、文生文、文生视频等领域的应用发展情况。免责声明和

74、披露以及分析师声明是报告的一部分,请务必一起阅读。19 传媒传媒 图表图表3535:重点推荐公司一览表重点推荐公司一览表 最新收盘价最新收盘价 目标价目标价 市值市值(百万百万)EPS(元元)PE(倍倍)股票名称股票名称 股票代码股票代码 投资评级投资评级(当地币种当地币种)(当地币种当地币种)(当地币种当地币种)2023 2024E 2025E 2026E 2023 2024E 2025E 2026E 昆仑万维 300418 CH 买入 38.87 50.09 47,227 1.04 0.89 0.91 0.94 37.38 43.67 42.71 41.35 捷成股份 300182 CH

75、买入 5.04 6.16 13,426 0.17 0.22 0.26 0.29 29.65 22.91 19.38 17.38 光线传媒 300251 CH 买入 9.14 13.60 26,813 0.14 0.40 0.43 0.46 65.29 22.85 21.26 19.87 资料来源:Bloomberg,华泰研究预测 图表图表36:重点推荐公司最新观点重点推荐公司最新观点 股票名称股票名称 最新观点最新观点 昆仑万维昆仑万维(300418 CH)23 归母净利同增归母净利同增 9%,24Q1 归母净亏损主因研发投入大增归母净亏损主因研发投入大增 昆仑万维发布年报&一季报,2023

76、年实现营收 49.15 亿元(yoy+3.78%),归母净利 12.58 亿元(yoy+9.19%),扣非净利 6.60 亿元(yoy-42.85%),确认非经常性损益 5.99 亿元,主要包括 Opera 所持有金融资产公允价值的变动收益 6.59 亿元。24Q1 实现营收 12.08 亿元,yoy-0.79%;归母净亏损 1.87 亿元(23Q1 归母 2.12 亿元),主因:1)研发费用同增 1.78 亿元;2)投资业务阶段性亏损 1.29 亿元;3)毛利率同比下滑 4.35 pct。我们预计公司 24-26 年实现归母净利 10.8/11.0/11.4 亿元,分部估值法目标市值 608

77、.6 亿元,对应目标价 50.09 元,维持“买入”评级。风险提示:AIGC 发展不及预期,模型开发进度不及预期,行业政策风险。报告发布日期:2024 年 04 月 27 日 点击下载全文:昆仑万维点击下载全文:昆仑万维(300418 CH,买入买入):AGI 战略全面推进战略全面推进,Opera 稳健增长稳健增长 捷成股份捷成股份(300182 CH)23 净利净利 4.5 亿元,同降亿元,同降 13.55%,维持,维持“买入买入”评级。评级。公司发布 23 年报&24Q1 季报:23 年营收 28 亿元(yoy-28.33%),归母净利 4.5 亿元(yoy-13.55%),扣非净利 4.

78、39 亿元(yoy-5.98%);24Q1营收 6.76 亿元(yoy+0.93%),归母净利 1.17 亿元(yoy-25.73%),扣非净利 1.17 亿元(yoy-23.49%)。23 年业绩下滑主因版权剧业务影响。我们预计公司 24-26 年归母净利润 5.93/6.88/7.61 亿元,可比公司 24 年 Wind 一致预期 PE 均值约为 28X,给予公司 24 年 PE 28X,目标价 6.16 元,维持“买入”评级。风险提示:AI 产品发展不及预期,影视行业恢复不及预期。报告发布日期:2024 年 04 月 29 日 点击下载全文:捷成股份点击下载全文:捷成股份(300182

79、CH,买入买入):因版权剧因版权剧 23 年承压,一体两翼发展年承压,一体两翼发展 光线传媒光线传媒(300251 CH)23 年业绩符合预告,年业绩符合预告,24Q1 净利净利 4.25 亿元同比大增,维持亿元同比大增,维持“买入买入”评级评级 公司发布 23 年报及 24Q1 季报:23 年营收 15.46 亿元(yoy+104.74%),归母净利润 4.18 亿元(yoy+158.62%),位于业绩预告区间偏下区间(4.1至 5.1 亿元),扣非归母净利润 3.88 亿元(yoy+149.29%);24Q1 营收 10.7 亿元(yoy+159.33%),归母净利 4.25 亿元(yoy

80、+248.01%),扣非归母净利润 4.16 亿元(yoy+252.01%)。公司 23 年拟每 10 股派发现金股利 0.7 元(含税)。我们预计公司 24-26 年归母净利 11.73/12.48/13.42亿元,对应 EPS 0.4/0.43/0.46 元,可比公司 Wind 一致预期 24 年 PE 均值 23X,考虑公司动画电影领先,且公司正在积极探索 AI 赋能动画制作,给予 24 年 PE 34X,目标价 13.6 元,维持“买入”评级。风险提示:电影上映时间不及预期、电影票房不及预期等。报告发布日期:2024 年 04 月 20 日 点击下载全文:光线传媒点击下载全文:光线传媒

81、(300251 CH,买入买入):Q1 业绩高增,产品大年持续兑现中业绩高增,产品大年持续兑现中 资料来源:Bloomberg,华泰研究预测 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。20 传媒传媒 风险提示风险提示 竞争加剧风险:竞争加剧风险:虽然大模型暂时难以替代专业团队,但预计随着模型持续迭代,行业关注度不断提高,影视及营销公司存在竞争加剧风险。监管风险:监管风险:大模型先进的生成技术可能会被用于制作虚假信息、误导性新闻等存在违背社会道德和法律的内容,可能对整体生态产生负面影响。随着行业进一步发展,相关监管政策有望得到完善。模型技术进展不及预期:模型技术进展不及预期:模

82、型处于成长早期阶段,未来应用层面存在进一步爆发可能。但考虑到模型尚未对公众开放,实际落地与技术表现尚不明确,需谨慎看待底层模型应用层效果。免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。21 传媒传媒 免责免责声明声明 分析师声明分析师声明 本人,朱珺、吴珺,兹证明本报告所表达的观点准确地反映了分析师对标的证券或发行人的个人意见;彼以往、现在或未来并无就其研究报告所提供的具体建议或所表迖的意见直接或间接收取任何报酬。一般声明及披露一般声明及披露 本报告由华泰证券股份有限公司(已具备中国证监会批准的证券投资咨询业务资格,以下简称“本公司”)制作。本报告所载资料是仅供接收人的严格保密资

83、料。本报告仅供本公司及其客户和其关联机构使用。本公司不因接收人收到本报告而视其为客户。本报告基于本公司认为可靠的、已公开的信息编制,但本公司及其关联机构(以下统称为“华泰”)对该等信息的准确性及完整性不作任何保证。本报告所载的意见、评估及预测仅反映报告发布当日的观点和判断。在不同时期,华泰可能会发出与本报告所载意见、评估及预测不一致的研究报告。同时,本报告所指的证券或投资标的的价格、价值及投资收入可能会波动。以往表现并不能指引未来,未来回报并不能得到保证,并存在损失本金的可能。华泰不保证本报告所含信息保持在最新状态。华泰对本报告所含信息可在不发出通知的情形下做出修改,投资者应当自行关注相应的更

84、新或修改。本公司不是 FINRA 的注册会员,其研究分析师亦没有注册为 FINRA 的研究分析师/不具有 FINRA 分析师的注册资格。华泰力求报告内容客观、公正,但本报告所载的观点、结论和建议仅供参考,不构成购买或出售所述证券的要约或招揽。该等观点、建议并未考虑到个别投资者的具体投资目的、财务状况以及特定需求,在任何时候均不构成对客户私人投资建议。投资者应当充分考虑自身特定状况,并完整理解和使用本报告内容,不应视本报告为做出投资决策的唯一因素。对依据或者使用本报告所造成的一切后果,华泰及作者均不承担任何法律责任。任何形式的分享证券投资收益或者分担证券投资损失的书面或口头承诺均为无效。除非另行

85、说明,本报告中所引用的关于业绩的数据代表过往表现,过往的业绩表现不应作为日后回报的预示。华泰不承诺也不保证任何预示的回报会得以实现,分析中所做的预测可能是基于相应的假设,任何假设的变化可能会显著影响所预测的回报。华泰及作者在自身所知情的范围内,与本报告所指的证券或投资标的不存在法律禁止的利害关系。在法律许可的情况下,华泰可能会持有报告中提到的公司所发行的证券头寸并进行交易,为该公司提供投资银行、财务顾问或者金融产品等相关服务或向该公司招揽业务。华泰的销售人员、交易人员或其他专业人士可能会依据不同假设和标准、采用不同的分析方法而口头或书面发表与本报告意见及建议不一致的市场评论和/或交易观点。华泰

86、没有将此意见及建议向报告所有接收者进行更新的义务。华泰的资产管理部门、自营部门以及其他投资业务部门可能独立做出与本报告中的意见或建议不一致的投资决策。投资者应当考虑到华泰及/或其相关人员可能存在影响本报告观点客观性的潜在利益冲突。投资者请勿将本报告视为投资或其他决定的唯一信赖依据。有关该方面的具体披露请参照本报告尾部。本报告并非意图发送、发布给在当地法律或监管规则下不允许向其发送、发布的机构或人员,也并非意图发送、发布给因可得到、使用本报告的行为而使华泰违反或受制于当地法律或监管规则的机构或人员。本报告版权仅为本公司所有。未经本公司书面许可,任何机构或个人不得以翻版、复制、发表、引用或再次分发

87、他人(无论整份或部分)等任何形式侵犯本公司版权。如征得本公司同意进行引用、刊发的,需在允许的范围内使用,并需在使用前获取独立的法律意见,以确定该引用、刊发符合当地适用法规的要求,同时注明出处为“华泰证券研究所”,且不得对本报告进行任何有悖原意的引用、删节和修改。本公司保留追究相关责任的权利。所有本报告中使用的商标、服务标记及标记均为本公司的商标、服务标记及标记。中国香港中国香港 本报告由华泰证券股份有限公司制作,在香港由华泰金融控股(香港)有限公司向符合证券及期货条例及其附属法律规定的机构投资者和专业投资者的客户进行分发。华泰金融控股(香港)有限公司受香港证券及期货事务监察委员会监管,是华泰国

88、际金融控股有限公司的全资子公司,后者为华泰证券股份有限公司的全资子公司。在香港获得本报告的人员若有任何有关本报告的问题,请与华泰金融控股(香港)有限公司联系。免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。22 传媒传媒 香港香港-重要监管披露重要监管披露 华泰金融控股(香港)有限公司的雇员或其关联人士没有担任本报告中提及的公司或发行人的高级人员。昆仑万维(300418 CH):华泰金融控股(香港)有限公司、其子公司和/或其关联公司实益持有标的公司的市场资本值的 1%或以上。有关重要的披露信息,请参华泰金融控股(香港)有限公司的网页 https:/.hk/stock_disclos

89、ure 其他信息请参见下方“美国“美国-重要监管披露”重要监管披露”。美国美国 在美国本报告由华泰证券(美国)有限公司向符合美国监管规定的机构投资者进行发表与分发。华泰证券(美国)有限公司是美国注册经纪商和美国金融业监管局(FINRA)的注册会员。对于其在美国分发的研究报告,华泰证券(美国)有限公司根据1934 年证券交易法(修订版)第 15a-6 条规定以及美国证券交易委员会人员解释,对本研究报告内容负责。华泰证券(美国)有限公司联营公司的分析师不具有美国金融监管(FINRA)分析师的注册资格,可能不属于华泰证券(美国)有限公司的关联人员,因此可能不受 FINRA 关于分析师与标的公司沟通、

90、公开露面和所持交易证券的限制。华泰证券(美国)有限公司是华泰国际金融控股有限公司的全资子公司,后者为华泰证券股份有限公司的全资子公司。任何直接从华泰证券(美国)有限公司收到此报告并希望就本报告所述任何证券进行交易的人士,应通过华泰证券(美国)有限公司进行交易。美国美国-重要监管披露重要监管披露 分析师朱珺、吴珺本人及相关人士并不担任本报告所提及的标的证券或发行人的高级人员、董事或顾问。分析师及相关人士与本报告所提及的标的证券或发行人并无任何相关财务利益。本披露中所提及的“相关人士”包括 FINRA定义下分析师的家庭成员。分析师根据华泰证券的整体收入和盈利能力获得薪酬,包括源自公司投资银行业务的

91、收入。昆仑万维(300418 CH):华泰证券股份有限公司、其子公司和/或其联营公司实益持有标的公司某一类普通股证券的比例达 1%或以上。华泰证券股份有限公司、其子公司和/或其联营公司,及/或不时会以自身或代理形式向客户出售及购买华泰证券研究所覆盖公司的证券/衍生工具,包括股票及债券(包括衍生品)华泰证券研究所覆盖公司的证券/衍生工具,包括股票及债券(包括衍生品)。华泰证券股份有限公司、其子公司和/或其联营公司,及/或其高级管理层、董事和雇员可能会持有本报告中所提到的任何证券(或任何相关投资)头寸,并可能不时进行增持或减持该证券(或投资)。因此,投资者应该意识到可能存在利益冲突。新加坡新加坡

92、华泰证券(新加坡)有限公司持有新加坡金融管理局颁发的资本市场服务许可证,可从事资本市场产品交易,包括证券、集体投资计划中的单位、交易所交易的衍生品合约和场外衍生品合约,并且是财务顾问法规定的豁免财务顾问,就投资产品向他人提供建议,包括发布或公布研究分析或研究报告。华泰证券(新加坡)有限公司可能会根据财务顾问条例第 32C 条的规定分发其在华泰内的外国附属公司各自制作的信息/研究。本报告仅供认可投资者、专家投资者或机构投资者使用,华泰证券(新加坡)有限公司不对本报告内容承担法律责任。如果您是非预期接收者,请您立即通知并直接将本报告返回给华泰证券(新加坡)有限公司。本报告的新加坡接收者应联系您的华

93、泰证券(新加坡)有限公司关系经理或客户主管,了解来自或与所分发的信息相关的事宜。评级说明评级说明 投资评级基于分析师对报告发布日后 6 至 12 个月内行业或公司回报潜力(含此期间的股息回报)相对基准表现的预期(A 股市场基准为沪深 300 指数,香港市场基准为恒生指数,美国市场基准为标普 500 指数,台湾市场基准为台湾加权指数,日本市场基准为日经 225 指数),具体如下:行业评级行业评级 增持:增持:预计行业股票指数超越基准 中性:中性:预计行业股票指数基本与基准持平 减持:减持:预计行业股票指数明显弱于基准 公司评级公司评级 买入:买入:预计股价超越基准 15%以上 增持:增持:预计股

94、价超越基准 5%15%持有:持有:预计股价相对基准波动在-15%5%之间 卖出:卖出:预计股价弱于基准 15%以上 暂停评级:暂停评级:已暂停评级、目标价及预测,以遵守适用法规及/或公司政策 无评级:无评级:股票不在常规研究覆盖范围内。投资者不应期待华泰提供该等证券及/或公司相关的持续或补充信息 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。23 传媒传媒 法律实体法律实体披露披露 中国中国:华泰证券股份有限公司具有中国证监会核准的“证券投资咨询”业务资格,经营许可证编号为:91320000704041011J 香港香港:华泰金融控股(香港)有限公司具有香港证监会核准的“就证券提

95、供意见”业务资格,经营许可证编号为:AOK809 美国美国:华泰证券(美国)有限公司为美国金融业监管局(FINRA)成员,具有在美国开展经纪交易商业务的资格,经营业务许可编号为:CRD#:298809/SEC#:8-70231 新加坡:新加坡:华泰证券(新加坡)有限公司具有新加坡金融管理局颁发的资本市场服务许可证,并且是豁免财务顾问。公司注册号:202233398E 华泰证券股份有限公司华泰证券股份有限公司 南京南京 北京北京 南京市建邺区江东中路228号华泰证券广场1号楼/邮政编码:210019 北京市西城区太平桥大街丰盛胡同28号太平洋保险大厦A座18层/邮政编码:100032 电话:86

96、 25 83389999/传真:86 25 83387521 电话:86 10 63211166/传真:86 10 63211275 电子邮件:ht- 电子邮件:ht- 深圳深圳 上海上海 深圳市福田区益田路5999号基金大厦10楼/邮政编码:518017 上海市浦东新区东方路18号保利广场E栋23楼/邮政编码:200120 电话:86 755 82493932/传真:86 755 82492062 电话:86 21 28972098/传真:86 21 28972068 电子邮件:ht- 电子邮件:ht- 华泰金融控股(香港)有限公司华泰金融控股(香港)有限公司 香港中环皇后大道中 99 号中环中心 53 楼 电话:+852-3658-6000/传真:+852-2567-6123 电子邮件: http:/.hk 华泰证券华泰证券(美国美国)有限公司有限公司 美国纽约公园大道 280 号 21 楼东(纽约 10017)电话:+212-763-8160/传真:+917-725-9702 电子邮件:Huataihtsc- http:/www.htsc- 华泰证券(新加坡)有限公司华泰证券(新加坡)有限公司 滨海湾金融中心 1 号大厦,#08-02,新加坡 018981 电话:+65 68603600 传真:+65 65091183 版权所有2024年华泰证券股份有限公司

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(传媒行业专题研究:Vidu~国内AI视频生成模型新突破-240509(23页).pdf)为本站 (SIA) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
客服
商务合作
小程序
服务号
会员动态
会员动态 会员动态: 关闭

152**58... 升级为高级VIP 150**99... 升级为至尊VIP

181**08... 升级为高级VIP wei**n_... 升级为高级VIP

186**72... 升级为至尊VIP 159**69... 升级为至尊VIP

181**08... 升级为标准VIP 136**84... 升级为至尊VIP

187**59... 升级为至尊VIP 189**23... 升级为高级VIP

188**67... 升级为至尊VIP wei**n_... 升级为高级VIP

wei**n_... 升级为高级VIP wei**n_... 升级为至尊VIP

wei**n_... 升级为高级VIP 189**07... 升级为至尊VIP

wei**n_... 升级为高级VIP wei**n_... 升级为标准VIP

150**72... 升级为高级VIP wei**n_... 升级为高级VIP

156**86... 升级为至尊VIP wei**n_... 升级为标准VIP

小** 升级为标准VIP Ka**in 升级为至尊VIP

137**09... 升级为至尊VIP wei**n_... 升级为标准VIP

wei**n_... 升级为至尊VIP 139**00... 升级为标准VIP

185**05... 升级为至尊VIP 178**50... 升级为高级VIP

wei**n_... 升级为标准VIP wei**n_... 升级为标准VIP

wei**n_... 升级为至尊VIP wei**n_... 升级为至尊VIP

wei**n_... 升级为至尊VIP 157**12... 升级为高级VIP

wei**n_... 升级为至尊VIP l**n 升级为标准VIP

133**22... 升级为至尊VIP 150**11... 升级为至尊VIP

wei**n_... 升级为高级VIP 152**33... 升级为标准VIP

wei**n_... 升级为标准VIP 施** 升级为至尊VIP

187**37... 升级为至尊VIP 185**99... 升级为高级VIP

139**24... 升级为至尊VIP wei**n_... 升级为高级VIP

180**86... 升级为标准VIP 138**15... 升级为至尊VIP

180**61... 升级为高级VIP wei**n_... 升级为至尊VIP

wei**n_... 升级为标准VIP 186**40... 升级为高级VIP

189**50... 升级为高级VIP 公**... 升级为标准VIP

138**54... 升级为高级VIP wei**n_... 升级为标准VIP

159**56... 升级为至尊VIP wei**n_... 升级为高级VIP

139**57... 升级为至尊VIP 156**69... 升级为标准VIP

139**57... 升级为高级VIP wei**n_... 升级为高级VIP

wei**n_... 升级为标准VIP 156**49... 升级为高级VIP

186**10... 升级为标准VIP wei**n_... 升级为高级VIP

wei**n_... 升级为标准VIP wei**n_... 升级为至尊VIP

186**97... 升级为至尊VIP 186**83... 升级为至尊VIP

周**... 升级为至尊VIP 152**96... 升级为至尊VIP

wei**n_... 升级为高级VIP wei**n_... 升级为标准VIP

wei**n_... 升级为至尊VIP 139**08... 升级为至尊VIP

137**35... 升级为至尊VIP wei**n_... 升级为高级VIP

wei**n_... 升级为至尊VIP wei**n_... 升级为标准VIP

186**09... 升级为高级VIP 178**87... 升级为至尊VIP

wei**n_... 升级为至尊VIP wei**n_... 升级为高级VIP

wei**n_... 升级为标准VIP wei**n_... 升级为高级VIP

wei**n_... 升级为高级VIP wei**n_... 升级为标准VIP

139**81... 升级为至尊VIP wei**n_... 升级为至尊VIP

wei**n_... 升级为标准VIP 178**82... 升级为至尊VIP

178**82... 升级为高级VIP 183**20... 升级为至尊VIP

wei**n_... 升级为标准VIP wei**n_... 升级为至尊VIP

Yo**so 升级为至尊VIP wei**n_... 升级为高级VIP