1、 请阅读最后评级说明和重要声明 丨证券研究报告丨 行业研究丨专题报告丨信息技术 Table_Title 大模型技术进化论系列一:初代大模型技术详解 报告要点 Table_Summary 大模型是深度学习在自然语言处理领域的最新技术,是继 RNN、CNN 等传统深度学习模型变体之后,在深度学习方向上打开了一个新世界的大门。大模型理论一经推出,即受到了广泛的关注。OpenAI 受其启发在 2018 年 6 月发布了初代 GPT 大模型,谷歌紧接其后在 2018 年 10月发布了 BERT 大模型。分析师及联系人 Table_Author 宗建树 SAC:S0490520030004 请阅读最后评级
2、说明和重要声明 丨证券研究报告丨 更多研报请访问 长江研究小程序 信息技术 cjzqdt11111 Table_Title2 大模型技术进化论系列一:初代大模型技术详解 行业研究丨专题报告 Table_Rank 投资评级 看好丨维持 Table_Summary2 大模型理论最早在 2017 年由谷歌的Attention is All You Need论文提出 大模型是深度学习在自然语言处理领域的最新技术,是继 RNN、CNN 等传统深度学习模型变体之后,在深度学习方向上打开的一个新世界的大门。大模型理论一经推出,即受到了广泛的关注。OpenAI 受其启发在 2018 年 6 月发布了初代 GP
3、T 大模型,谷歌紧接其后在 2018 年 10月发布了 BERT 大模型。时至今日,基于通用大模型进行调参已成为自然语言处理任务的首选范式。大模型的三大特征:生成式、预训练和多模态帮助其取代了绝大部分传统的自然语言处理的深度学习模型,已广泛用于文本生成、机器翻译、文本推理、关键词总结等各类场景。OpenAI 最新发布的 GPT-4 大模型甚至可以完成复杂的图像处理,通过美国律师从业资格考试、高等教育入学考试。其他科技巨头也陆续宣布要开发自己的通用大模型和行业大模型,实现商业化落地。大模型有望在未来开辟强人工智能的新篇章。大模型的出现解决了一系列痛点 在 2017 年大模型诞生的前夕,深度学习的
4、 Encoder/Decoder 算法虽然早已提出,但在 NLP 领域还只被用于机器翻译领域;Attention 机制刚刚出现,尚未得到重视;与此同时,较为成熟的RNN、CNN 模型遇到了一系列的技术瓶颈,始终无法解决处理文本长度受限、模型无法泛化、无法用于文本生成等问题。这一时点出现的大模型将 Encoder/Decoder 与 Attention 机制相结合,通过无监督学习+调参的方式,突破了传统深度学习的技术瓶颈。初代 GPT 和 BERT 特点 初代 GPT 由于使用了 12 层 Decoder 架构,配合上 Masked Multi-Head Attention,只能根据前文单向预测
5、下一个单词,因此训练速度不如 BERT,但更擅长文本生成与逻辑推理。BERT由于使用了 24 层 Encoder 结构,配合上 Multi-Head Attention,训练时随机遮挡一段文本中15%的单词做完形填空,因此训练速度更快,训练可以双向并行。训练模式导致 BERT 更擅长文本总结,问答对话等任务。BERT 模型的架构和训练模式导致其上限不高 简单而言,BERT 只采用了 Encoder 结构,而 Encoder 适用于完形填空的训练模式,所以 BERT训练完成之后更适合关键词提取、文本总结等任务,而此类任务本身较为简单;另一方面,GPT采用了 Decoder 架构,更适合搭配下一个
6、词预测作为训练任务,所以训练出的 GPT 模型更适合推理和文本生成等任务,而这类任务的难度较高,OpenAI 直到迭代到 ChatGPT 才较好实现了这一功能。风险提示 1、人工智能技术发展不及预期;2、人工智能商业化应用落地不及预期。市场表现对比图市场表现对比图(近近 12 个月个月)资料来源:Wind 相关研究相关研究 底部渐近,复苏可期存储行业五问五答2023-04-03 AI 大模型时代,重视 OA 产业投资机遇 2023-04-02 从 AIGC 看数通链2023-04-02 -21%-9%3%15%2022/42022/82022/122023/4信息技术沪深300指数2023-0