《计算机行业AIGC系列之五:跨模态更多应用场景出现中国公司得到更大机会-230313(20页).pdf》由会员分享,可在线阅读,更多相关《计算机行业AIGC系列之五:跨模态更多应用场景出现中国公司得到更大机会-230313(20页).pdf(20页珍藏版)》请在三个皮匠报告上搜索。
1、行业及产计算机电万宏源研究2023年03月13日跨模态:更多应用场景出现,中国行业研究行业深度公司得到更大机会看好AIGC系列之五相关研究本期投资提示:“数据局,国资云,AIGC,中东进:全面数字经济!计算机行业周报证券研究报告“模态”是指数据的存在形式,比如文本、音频、图像、视频等文件格式。多模态是一种全20230306-20230310*2023年3月11新的交互、生成模式,集合了图像、语音、文本等方式。我们认为,多模态/跨模态AI大8模型将得到相比ChatGPT等NLP大模型更大的应用“重视信创带来的数据库运维新机会-数据库行业点评2023年3月8日近期google、微软等海外巨头在20
2、23年后在跨模态预训练大模型上有更大投入。3月google推出Palm-E参数量达562B,可以理解图像,还能理解、生成语言,并将两者结合起来。微软推出多模态大型语言模型,此外计划在下周推出GPT-4。证券分析师洪依真A0230519060003目前我们已经可以在跨模态中看到更多应用可能性。除了已经相对成熟的文生图外,人机互动、机器人控制、图片搜索,语音生成等,大量应用涌现。林起贤A0230519060002李国盛A0230521080003本篇深度中,我们解释了大量市场预期差。杨海燕A0230518070003市场认为,国内AI大模型相比美国落后较多。我们认为,实际上国内巨头已在跨模态有联系
3、人模态大模型应用。应用领域包括金融、电商、工业、智慧城市等众多领域洪依真(8621)23297818x市场认为,相比NLP单模态大模型,多模态技术难度在每个单点上都提升。我们认为,多模态可能反而降低了单点技术难度。类似文生图等多模态大模型对于纯文本特征提取要求降低,不需要理解长文本,不需要理解多轮对话;对文本生成无要求。DALL-E的参数量从GPT-3的175B降低到12B就是一个佐证。市场认为,视觉大模型仍然需要更多参数标注、且transformer算法不适用于CV场景。我们认为,图像自动标注已经有了更多方法论,且trans应用于CV也开始成熟,算法和数据都已大幅选代。更大参数的数据模型意味
4、着更多的数据标注。我们认为更大参数的数据模型并不直接意味着更多标注数据需求,但RLHF等需求可能增加。且近年来随着vit、swintransformer、mae等论文推出,transformer在CV和跨模态等应用增加。CV大模型参数量达到了百亿级别建议重点关注。视频、图像、文本素材:大华股份、海天瑞声、AI领军、当虹科技算力和基础设施:中科曙光、拓维信息、寒武纪、浪潮信息、光通信和光模块多模态应用:1)文生图:新国都、中科创达;2)机器人:三花智控、鸣志电器、绿的谐波:3)其他应用:汤姆猫(申万传媒)、万兴科技、昆仑万维(申万传媒)、风语筑(申万传媒)。视觉和跨模态算法:商汤(港股)、云从科
5、技、虹软科技、科大讯飞风险提示:大模型技术中美仍存在差异,部分技术尚处于早期实验室阶段,存在落地风险;实体清单等可能对训练硬件产生影响。请务必仔细阅读正文之后的各项信息披露与声明#page#SMSG行业深度投资案件结论和投资分析意见跨模态AI大模型是通用式强人工智能的下一站,跨模态/视觉大模型将带来更多行业应用可能。中国AI公司在其中相比NLP大模型受益更大重点推荐1)视频、图像、文本素材,2)算力和基础设施,3)多模态应用,4)视觉和跨模态算法四类公司。原因及逻辑1)海外巨头在2023年后在跨模态预训练大模型上有更大投入。近期google推出Palm-E参数量达562B,可以理解图像,还能理
6、解、生成语言,并将两者结合起来。微软推出多模态大型语言模型,此外计划在下周推出GPT-4;2)跨模态意味着更多应用可能性,包括人机互动、图片搜索,语音生成等;3国内AI公司在跨模态/CV大模型领域的能力强于纯NLP大模型,体现在2022年以前,百度、华为、阿里、腾讯、商汤等公司就已经开始尝试跨模态大模型应用。有别于大众的认识市场认为,多模态应用仍然较远。我们认为,实际上DALL-E等文生图应用已经较为成熟。LatentDiffusion等方法提升了图片生成能力,降低了扩散去噪的成本,使之达到可商用水平;这个过程中大量关键工具已开源,我们看到的文生图应用也是最多最成熟的。市场认为,国内AI大模型