《国产大模型深度:竞争格局、发展现状及应用端深度梳理-231009(32页).pdf》由会员分享,可在线阅读,更多相关《国产大模型深度:竞争格局、发展现状及应用端深度梳理-231009(32页).pdf(32页珍藏版)》请在三个皮匠报告上搜索。
1、 1/32 2023 年年 10 月月 9 日日 行业行业|深度深度|研究报告研究报告 行业研究报告 慧博智能投研 国产大模型国产大模型深度:深度:竞争栺局竞争栺局、发展现状发展现状及及应应用端用端深度梳理深度梳理 前不久首批大模型产品陆续通过生成式人工智能服务管理暂行办法备案,正式上线面向公众提供服务。其中包括:百度文心一言、抖音云雀大模型、智谱 AI 的 GLM 大模型、中科院的紫东太初大模型、百川智能的百川大模型、商汤的日日新大模型、MiniMax 的 ABAB 大模型、上海人工智能实验室的书生通用大模型、科大讯飞星火大模型,以及华为、腾讯的大模型产品,共计 11 家。同时,商汤“商量S
2、ense Chat”、智谱 AI 智能助手“智谱清言”,百度“文心一言”,百川智能“百川大模型”已经宣布全面向用户开放服务。首批大模型产品完成备案,并陆续向用户开放服务,使得大模型能够大量获得真实用户数据反馈,加快大模型迭代速度,进而不断提升用户体验,同时基于大模型的 ToB、ToC 应用落地进程也有望加快。那么,什么是大模型?大模型发展经历了怎样的历程?国外大模型及国内大模型发展现状是怎样的,竞争格局及竞争壁垒是怎样的?国内都有哪些大模型?这些大模型在应用领域都有哪些差异呢?今后国内大模型将有怎样的发展方向呢?目录目录 一、大模型概述.1 二、国内外大模型发展现状及竞争格局.5 三、国内大模
3、型竞争壁垒.9 四、国内主要大模型及应用端梳理.14 五、国内大模型未来发展方向.31 六、参考研报.32 一、一、大模型大模型概述概述 1.什么是大模型?什么是大模型?大模型是大规模语言模型(大模型是大规模语言模型(Large Language Model)的简称)的简称。大模型主要指具有数十亿甚至上百亿参数的深度学习模型,其具备较大容量、海量参数、大算力等特点。大模型由早期的单语言预训练模型 2/32 2023 年年 10 月月 9 日日 行业行业|深度深度|研究报告研究报告 发展至多语言预训练模型,再到现阶段的多模态预训练模型,可实现处理多任务的目标。大型语言模型是一种深度学习算法,可以
4、使用非常大的数据集来识别、总结、翻译、预测和生成内容。大语言模型在很大程度上代表了一类称为 Transformer 网络的深度学习架构。Transformer 模型是一个神经网络,通过跟踪序列数据中的关系(像这句话中的词语)来学习上下文和含义。2.Transformer 架构的提出,开启了大语言模型快速发展的新时代架构的提出,开启了大语言模型快速发展的新时代 谷歌的 BERT 首先证明了预训练模型的强大潜力;OpenAI 的 GPT 系列及 Anthropic 的 Claude 等继续探索语言模型技术的边界。越来越大规模的模型不断刷新自然语言处理的技术状态。这些模型拥有数百亿或上千亿参数,可以
5、捕捉语言的复杂语义关系,并进行人类级别的语言交互。解锁大模型时代的钥匙解锁大模型时代的钥匙Transformer 的注意力机制的注意力机制。Transformer 模型最大的创新在于提出了注意力机制,这一机制极大地改进了模型学习远距离依赖关系的能力,突破了传统 RNN 和 CNN 在处理长序列数据时的局限。0UgVgYgVcZlXtPmQqN8O8Q7NoMoOpNnOlOpOmMlOpOnMbRnMnNwMmOmONZoPtO 3/32 2023 年年 10 月月 9 日日 行业行业|深度深度|研究报告研究报告 在 Transformer 出现之前,自然语言处理一般使用 RNN 或 CNN
6、来建模语义信息。但 RNN 和 CNN 均面临学习远距离依赖关系的困难:RNN 的序列处理结构使较早时刻的信息到后期会衰减;而 CNN 的局部感知也限制了捕捉全局语义信息。这使 RNN 和 CNN 在处理长序列时,往往难以充分学习词语之间的远距离依赖。Transformer 注意力机制突破了 RNN 和 CNN 处理长序列的固有局限,使语言模型能在大规模语料上得到丰富的语言知识预训练。该模块化、可扩展的模型结构也便于通过增加模块数量来扩大模型规模和表达能力,为实现超大参数量提供了可行路径。Transformer 解决了传统模型的长序列处理难题,并给出了可无限扩展的结构,奠定了大模型技术实现的双