计算机行业AIGC系列之五：跨模态更多应用场景出现中国公司得到更大机会-230313-三个皮匠报告

1、行业及产计算机电万宏源研究2023年03月13日跨模态：更多应用场景出现，中国行业研究行业深度公司得到更大机会看好AIGC系列之五相关研究本期投资提示：“数据局，国资云，AIGC，中东进：全面数字经济！计算机行业周报证券研究报告“模态”是指数据的存在形式，比如文本、音频、图像、视频等文件格式。多模态是一种全20230306-20230310*2023年3月11新的交互、生成模式，集合了图像、语音、文本等方式。我们认为，多模态/跨模态AI大8模型将得到相比ChatGPT等NLP大模型更大的应用“重视信创带来的数据库运维新机会-数据库行业点评2023年3月8日近期google、微软等海外巨头在20

2、23年后在跨模态预训练大模型上有更大投入。3月google推出Palm-E参数量达562B，可以理解图像，还能理解、生成语言，并将两者结合起来。微软推出多模态大型语言模型，此外计划在下周推出GPT-4。证券分析师洪依真A0230519060003目前我们已经可以在跨模态中看到更多应用可能性。除了已经相对成熟的文生图外，人机互动、机器人控制、图片搜索，语音生成等，大量应用涌现。林起贤A0230519060002李国盛A0230521080003本篇深度中，我们解释了大量市场预期差。杨海燕A0230518070003市场认为，国内AI大模型相比美国落后较多。我们认为，实际上国内巨头已在跨模态有联系

3、人模态大模型应用。应用领域包括金融、电商、工业、智慧城市等众多领域洪依真（8621）23297818x市场认为，相比NLP单模态大模型，多模态技术难度在每个单点上都提升。我们认为，多模态可能反而降低了单点技术难度。类似文生图等多模态大模型对于纯文本特征提取要求降低，不需要理解长文本，不需要理解多轮对话；对文本生成无要求。DALL-E的参数量从GPT-3的175B降低到12B就是一个佐证。市场认为，视觉大模型仍然需要更多参数标注、且transformer算法不适用于CV场景。我们认为，图像自动标注已经有了更多方法论，且trans应用于CV也开始成熟，算法和数据都已大幅选代。更大参数的数据模型意味

4、着更多的数据标注。我们认为更大参数的数据模型并不直接意味着更多标注数据需求，但RLHF等需求可能增加。且近年来随着vit、swintransformer、mae等论文推出，transformer在CV和跨模态等应用增加。CV大模型参数量达到了百亿级别建议重点关注。视频、图像、文本素材：大华股份、海天瑞声、AI领军、当虹科技算力和基础设施：中科曙光、拓维信息、寒武纪、浪潮信息、光通信和光模块多模态应用：1）文生图：新国都、中科创达；2）机器人：三花智控、鸣志电器、绿的谐波：3）其他应用：汤姆猫（申万传媒）、万兴科技、昆仑万维（申万传媒）、风语筑（申万传媒）。视觉和跨模态算法：商汤（港股）、云从科

5、技、虹软科技、科大讯飞风险提示：大模型技术中美仍存在差异，部分技术尚处于早期实验室阶段，存在落地风险；实体清单等可能对训练硬件产生影响。请务必仔细阅读正文之后的各项信息披露与声明#page#SMSG行业深度投资案件结论和投资分析意见跨模态AI大模型是通用式强人工智能的下一站，跨模态/视觉大模型将带来更多行业应用可能。中国AI公司在其中相比NLP大模型受益更大重点推荐1）视频、图像、文本素材，2）算力和基础设施，3）多模态应用，4）视觉和跨模态算法四类公司。原因及逻辑1）海外巨头在2023年后在跨模态预训练大模型上有更大投入。近期google推出Palm-E参数量达562B，可以理解图像，还能理

6、解、生成语言，并将两者结合起来。微软推出多模态大型语言模型，此外计划在下周推出GPT-4；2）跨模态意味着更多应用可能性，包括人机互动、图片搜索，语音生成等；3国内AI公司在跨模态/CV大模型领域的能力强于纯NLP大模型，体现在2022年以前，百度、华为、阿里、腾讯、商汤等公司就已经开始尝试跨模态大模型应用。有别于大众的认识市场认为，多模态应用仍然较远。我们认为，实际上DALL-E等文生图应用已经较为成熟。LatentDiffusion等方法提升了图片生成能力，降低了扩散去噪的成本，使之达到可商用水平；这个过程中大量关键工具已开源，我们看到的文生图应用也是最多最成熟的。市场认为，国内AI大模型

计算机行业AIGC系列之五：跨模态更多应用场景出现中国公司得到更大机会-230313（20页）.pdf

报告标签

相关报告