1、 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。1 证券研究报告 计算机计算机 GPT产业复盘(产业复盘(2022):推出):推出ChatGPT 华泰研究华泰研究 计算机计算机 增持增持 (维持维持)研究员 谢春生谢春生 SAC No.S0570519080006 SFC No.BQZ938 +(86)21 2987 2036 联系人 袁泽世,袁泽世,PhD SAC No.S0570122080053 +(86)21 2897 2228 行业行业走势图走势图 资料来源:Wind,华泰研究 2023 年 2 月 19 日中国内地 专题研究专题研究 溯源溯源 GPT 发展:发展:20
2、22 年年 ChatGPT 面世,面世,LLM 里程碑式胜利里程碑式胜利 梳理 GPT 系列模型的演进过程,可以看到 2022 年是 GPT 系列模型围绕GPT-3、GPT-3.5 加速版本迭代的重要节点,2022 年 11 月,ChatGPT 成功面世,成为历史上用户增长最快的消费者应用。与 Google、FaceBook等公司不同,OpenAI 从初代模型 GPT-1 开始,始终贯彻只有解码器(Decoder-only)的技术路径,2018-2022 年 GPT 系列模型几乎按照每年一代的速度,不断迭代升级。我们认为,2022 年 ChatGPT 的成功,是 OpenAI公司 GPT 系列
3、模型的阶段性胜利,也是大语言模型 LLM 的里程碑式胜利,后续围绕 LLM 的技术升级、应用拓展有望加速开启,AI 产业发展或将提速。ChatGPT:引入人类反馈,模型训练:引入人类反馈,模型训练 SFT、RM、PPO 三步走三步走 ChatGPT、InstructGPT 分别是基于 GPT-3.5、GPT-3 微调得到的新版本模型,其核心目标是实现模型输出与人类预期的需求对齐(alignment),人类反馈强化学习 RLHF 成为模型需求对齐的重要技术支持。ChatGPT、InstructGPT 的模型训练主要包括三步:1)有监督微调 SFT:通过指示学习对模型进行有监督微调;2)奖励模型
4、RM 训练:借助人工标注员对模型输出进行排序,反馈训练得到奖励模型,此步是人类反馈的重要体现;3)近段策略优化 PPO 强化学习:通过监督学习策略生成 PPO 模型,优化、迭代原有模型参数。总结来看,RLHF 让模型输出更加符合用户预期。ChatGPT VS InstructGPT:核心是:核心是基础大模型的不同基础大模型的不同 对比 ChatGPT 与 InstructGPT 的训练方法,可以发现,两者的训练方法基本一致,核心区别在于 InstructGPT、ChatGPT 分别基于 GPT-3、GPT-3.5进行模型微调。与 GPT-3 相比,GPT-3.5 增加了代码训练与指示微调:1)
5、代码训练(Code-training):让 GPT-3.5 模型具备更好的代码生成与代码理解能力,同时间接拥有了复杂推理能力;2)指示微调(Instruction-tuning):让 GPT-3.5 模型具备更好的泛化能力,同时模型的生成结果更加符合人类的预期。作为基于 GPT-3.5 的模型微调产物,ChatGPT 具备更好的问答能力,更加遵循人类的价值观。OpenAI VS Google:OpenAI 贯彻贯彻 Decoder-only 路径,技术集大成者路径,技术集大成者 通过梳理 Google 与 OpenAI 在 LLM 领域的布局,可以看到,OpenAI 具备两大突出特点:1)贯彻
6、 Decoder-only 技术路线:从 GPT-1 到 ChatGPT,OpenAI 的 LLM 均采用 Decoder-only 架构,单一架构的持续深耕与模型参数的不断扩大,让 OpenAI 的 GPT 系列模型具备强大的学习能力与文本生成能力;2)技术集大成者:ChatGPT 的发展不仅得益于 GPT 模型参数、训练数据的持续优化,也得益于各类 LLM 新技术的融会贯通,OpenAI 博采众长,加速 Instruction-tuning、RLHF、思维链等新技术在 GPT 系列模型中的深度应用,ChatGPT 是现有技术的集大成者。风险提示:宏观经济波动;下游需求不及预期;本报告内容均