1、 1|请务必仔细阅读报告尾部的投资评级说明和声明 行业专题报告行业专题报告|计算机计算机 交互型多模态大模型有望带来应用的爆发起点 人工智能系列报告(六)核心结论核心结论 行业评级行业评级 超配超配 前次评级 超配 评级变动 维持 近一年近一年行业行业走势走势 相对表现相对表现 1 个月个月 3 个月个月 12 个月个月 计算机-5.39-13.20-35.38 沪深 300-3.28-8.79-13.66 分析师分析师 郑宏达郑宏达 S0800524020001 13918906471 联系人联系人 卢可欣卢可欣 16621642550 相关研究相关研究 计算机:科技自主的道路是星辰大海计算
2、机行业 2024 年 9 月研究观点 2024-08-30 计算机:美股软件股目前的估值和股价表现计算机行业周观点第 22 期 2024-08-25 计算机:阿里腾讯加码 AI 决心坚定计算机行业周观点第 21 期 2024-08-17 交互型多模态大模型是指跨越单一模态的限制,支持文本、音频、图像、视频交互型多模态大模型是指跨越单一模态的限制,支持文本、音频、图像、视频等模态任意组合的输入输出,能做出实时的、“类人”的理解和反馈,可以跟等模态任意组合的输入输出,能做出实时的、“类人”的理解和反馈,可以跟人无缝交流的大模型,目前最具代表性的是人无缝交流的大模型,目前最具代表性的是 OpenAI
3、 的的 GPT-4o。特点如下:1)原生多模态:跨文本、视频和音频等模态端到端训练的大模型,所有输入和输出都由同一神经网络处理。2)快速响应:能做到极低延迟,响应速度比肩人类,且可以做到对话随时打断。现在 GPT-4o 能在短至 232 毫秒、平均 320毫秒的时间内响应音频输入,而过去 GPT-3.5 平均延时为 2.8 秒、GPT-4 为 5.4 秒。3)情感表达:回复有“人味”,情绪饱满,会带来极强的交互沉浸感。4)记忆:能回忆并联系此前“看”到的信息做出回答,而不是仅仅依靠当前输入。交互型多模态大模型成本将降至几何?交互型多模态大模型成本将降至几何?大模型降本趋势显著。8 月,Open
4、AI 发布更强且更具性价比的 GPT-4o 新版本,相比 5 月版本价格下降超 40%至$4/100万 tokens。按照这个趋势,我们预计以 GPT-4o 为代表的交互型多模态大模型的成本将继续快速下降,每百万 tokens 的推理成本或将在两年内降至美分量级。交互型多模态大模型进展如何?交互型多模态大模型进展如何?OpenAI 与谷歌双巨头抢滩,分别发布 GPT-4o和 AI 智能体项目 Project Astra,Meta 也于 2024 年 5 月发布具有原生多模态特性的 Chameleon-34B。国内的大模型多处于语音交互阶段,商汤领衔发布流式多模态交互大模型“日日新 5o”,智谱
5、面向 C 端开放“视频通话”功能。为什么交互型多模态大模型为什么交互型多模态大模型有望有望带来应用的爆发?带来应用的爆发?1)人类生活在一个由多种模态信息构成的世界,会同时收到多个互补的、融合的、不同模态的感官输入,多模态更符合人类感知周边、探索世界的方式。2)应用是连接人类意图与信息及技术实现的媒介,其本质是交互。我们认为从 PC 互联网时代,到移动互联网时代,再到现在的 AI 时代,应用发展的核心就是人机交互的不断进化与深化。所以在大模型迭代过程中,性能提高固然重要,但交互的升级也同样具有重大价值,交互型多模态大模型的出现有望推动人机交互变革向更为简单的自然语言交互形式发展。交互型多模态大
6、模型会带来怎样的应用?交互型多模态大模型会带来怎样的应用?我们将交互型多模态大模型的应用分为:1)数字智能,大模型提供软件形式的服务,主要应用场景包括教育、编程、医疗健康、游戏、情感陪伴等。2)具身智能,需要硬件支持来实现三维空间内的运动行为,如人形机器人、智能家居、智能座舱等。交互型多模态大模型商业模式展望交互型多模态大模型商业模式展望:1)聊天助手 APP。2)作为基础模型接入各类应用。3)与终端 OS 深度融合成为 AI 时代的“超级入口”。相关标的梳理:相关标的梳理:1)交互型多模态大模型:)交互型多模态大模型:商汤-W、云从科技-UW;2)数字智)数字智能应用:能应用:金山办公、科大