《计算机行业专题研究:GPT4模型能力提升推动应用升级-230316(19页).pdf》由会员分享,可在线阅读,更多相关《计算机行业专题研究:GPT4模型能力提升推动应用升级-230316(19页).pdf(19页珍藏版)》请在三个皮匠报告上搜索。
1、 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。1 证券研究报告 计算机计算机 GPT4:模型能力提升推动应用升级:模型能力提升推动应用升级 华泰研究华泰研究 计算机计算机 增持增持 (维持维持)研究员 谢春生谢春生 SAC No.S0570519080006 SFC No.BQZ938 +(86)21 2987 2036 联系人 彭钢彭钢 SAC No.S0570121070173 +(86)21 2897 2228 联系人 袁泽世,袁泽世,PhD SAC No.S0570122080053 +(86)21 2897 2228 行业行业走势图走势图 资料来源:Wind,华泰研究
2、 2023 年 3 月 16 日中国内地 专题研究专题研究 GPT-4:多模态确认,在专业和学术上表现亮眼多模态确认,在专业和学术上表现亮眼 北京时间 3 月 15 日 GPT-4 正式发布,支持图片、文字等多模态输入,以及文本输出。根据相关技术文档,1)模型架构(包括模型大小)、硬件、训练计算、数据集构造、训练方法等细节未公布;2)GPT-4 于 2022 年 8 月完成训练,此后 OpenAI 一直在评估、对抗性测试并迭代和改进模型;3)OpenAI搭建了开源 OpenAI Evals 模型评估框架,支持现有准则和自定义准则。4)GPT-4 API 已开放等待列表(waitlist),价格
3、提升明显。实验结果表明,GPT-4在各种专业和学术基准上表现出了人类的水平。技术拆解:构建深度学习堆栈,新增奖励训练模型技术拆解:构建深度学习堆栈,新增奖励训练模型 GPT-4 项目重点之一是构建大范围可预测的深度学习堆栈。堆栈(stack)能够通过评估小计算量模型的性能,准确预测大计算量模型的性能,减少训练成本。训练方法上,预训练之后,GPT-4 采用了与 InstructGPT 同样的方法进行基于人类反馈的强化学习,并添加了基于规则的奖励模型来进一步引导模型产生人类预期的结果。多模态输入上,支持图片和文本的多模态输入,但是,OpenAI 未在技术文档中给出图片模态的相关技术细节。安全性讨论
4、:引入专家提高模型安全性和一致性安全性讨论:引入专家提高模型安全性和一致性 OpenAI 在技术文档中耗费大量篇幅讨论模型安全性问题。从目前结果看,GPT-4 仍然存在“幻觉”和推理错误,并在模型校准上表现不佳。为了进一步提高模型安全性,OpenAI 聘请了来自 AI 对齐风险、网络安全、生物风险和国际安全等领域的 50 多名专家对模型进行对抗性测试,涉及幻觉、有害内容、虚假信息、武器扩散、隐私、网络安全等 11 个方面。我们认为,OpenAI对模型安全性的关注,或是为未来大规模商业化应用做铺垫。模型能力提升,应用或进一步升级模型能力提升,应用或进一步升级 GPT4 相比 GPT3.5 在多模
5、态、推理能力、支持文本长度方面有了较明显的提升,有望推动应用进一步升级。对多模态的支持有望加速 PDF、图像等领域的生产力应用升级,或将推动生产力应用效率的进一步提升。相关公司包括:万兴科技、福昕软件、金山办公。更强的推理能力与语言理解能力有助于进一步优化服务型应用的使用效果,包含垂类信息的搜索引擎、客服等产品的功能有望进一步升级。相关公司包括:三六零、同花顺。风险提示:宏观经济波动,技术进步不及预期。本报告内容均基于客观信息整理,不构成投资建议。(25)(14)(3)819Mar-22Jul-22Nov-22Mar-23(%)计算机沪深300 免责声明和披露以及分析师声明是报告的一部分,请务
6、必一起阅读。2 计算机计算机 正文目录正文目录 GPT-4:多模态确认,在专业和学术上表现亮眼:多模态确认,在专业和学术上表现亮眼.3 GPT-4:支持多模态输入,安全问题或成为 LLM 关注焦点.3 能力测试:在专业和学术基准上表现出了人类的水平.4 技术拆解:构建深度学习堆栈,新增奖励训练模型技术拆解:构建深度学习堆栈,新增奖励训练模型.8 项目重点:构建大范围可预测的深度学习堆栈.8 训练方法:在 InstructGPT 方法基础上增加新的奖励模型.9 多模态:支持图片输入,未提供具体算法.10 安全性讨论:引入专家提高模型安全性和一致性安全性讨论:引入专家提高模型安全性和一致性.12
7、局限性:仍存在推理错误与校准下降等问题.12 风险与改进:聘请专家进行对抗性测试.13 模型能力进一步提升,应用有望进一步升级模型能力进一步提升,应用有望进一步升级.15 风险提示.16 oOrQ3ZcVaYbZoWeXMB8ObP6MmOrRtRmPjMqQmPlOpOoQ9PnMqPNZnOzQNZpMoM 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。3 计算机计算机 GPT-4:多模态确认,在专业和学术上表现亮眼多模态确认,在专业和学术上表现亮眼 GPT-4:支持支持多模态多模态输入输入,安全问题或成为,安全问题或成为 LLM 关注焦点关注焦点 GPT-4 支持多模态输入
8、,安全问题或成关注焦点。支持多模态输入,安全问题或成关注焦点。北京时间 3 月 15 日凌晨,OpenAI 召开发布会,正式宣布 GPT 模型家族中最新的大型语言模型(LLM)GPT-4。GPT-4 可以接受图像和文本输入并产生文本输出。同时,OpenAI 发布了 GPT-4 相关技术文档。从技术文档结构看,OpenAI 并未对 GPT-4 模型本身做过多介绍,而是将大量篇幅留给模型安全性相关讨论。我们认为,在 LLM 走向大规模应用的过程中,随着模型规模和能力的提升,将暴露出更多安全方面的问题,或将成为未来 LLM 的重要关注点。图表图表1:GPT-4 技术报告结构拆解技术报告结构拆解 资料
9、来源:GPT-4 Technical Report,OpenAI(2023)、华泰研究 GPT-4 于于 2022 年年 8 月完成训练,技术细节未完全公布。月完成训练,技术细节未完全公布。据 GPT-4 技术文档,GPT-4 于 2022年 8 月完成训练,此后,OpenAI 一直在评估、对抗性测试并迭代和改进模型,并提出各种系统级安全缓解措施。此外,OpenAI 在 GPT-4 文档中明确提出,考虑到竞争格局和大型模型(如 GPT-4)的安全影响,本文档没有包含有关架构(包括模型大小)、硬件、训练计算、数据集构造、训练方法或类似内容的进一步细节。文档明确提供的内容包括:1)GPT-4是一个
10、基于 transformer 的预训练模型,用于预测文字的下一个 token;2)使用公开可用数据(如互联网数据)和第三方提供商授权的数据;3)使用来自人类反馈的强化学习(RLHF)对模型进行微调。GPT-4技术报告技术报告附录附录安全性讨论安全性讨论1-2223-3839-98各类考试题的来源和设置,RLHF对模型的影响,专业、学术考试数据和学术测试基准的污染情况讨论,更多GPT-4图像输入示例大量篇幅讨论关于模型安全性问题及改进GPT-4基本技术信息,包括能力测试、构建大范围可预测的深度学习堆栈等 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。4 计算机计算机 图表图表2:O
11、penAI 关于不透露技术细节的说明关于不透露技术细节的说明 资料来源:GPT-4 Technical Report,OpenAI(2023)、华泰研究 OpenAI 搭建了搭建了开源开源 OpenAI Evals 模型评估框架模型评估框架。OpenAI Evals 模型评估框架(https:/ Evals 与现有的基准测试兼容,并可用于跟踪部署中的模型性能。未来,OpenAI 计划逐步增加测试基准的多样性,以代表更广泛的故障模式和更难的任务集。GPT-4 API 已开放等待列表(已开放等待列表(waitlist),),API 价格提升价格提升明显明显。当获得访问权限后,即可以对GPT-4 模
12、型进行纯文本请求(图像输入仍然处于有限的测试阶段),OpenAI 将自动将模型更新为推荐的稳定模型。此外,GPT-4 提供两个版本,GPT-4-8k 和 GPT-4-32k,前者支持的上下文长度为 8192 个 token,后者支持 32768-context(约 50 页文本,提供有限访问)。GPT-4-8k 定价为每 1k 提示 token 0.03 美元,每 1k 完成 token 0.06 美元。默认速率限制为每分钟 40k 个 token,每分钟 200 个请求;GPT-4-32k 定价为每 1k 提示 token 0.06 美元,每 1k 完成 token 0.12 美元。(API
13、 价格网址 https:/ API 和和 GPT-3.5-turbo API 价格对比价格对比 资料来源:GPT-4 Technical Report,OpenAI(2023)、华泰研究 能力测试能力测试:在:在专业和学术基准上表现出了人类的水平专业和学术基准上表现出了人类的水平 GPT-4 在各种专业和学术基准上表现出了人类的水平在各种专业和学术基准上表现出了人类的水平。OpenAI 在一系列不同的基准上测试了 GPT-4,包括最初为人类设计的模拟考试。考试题目包括多项选择题和自由问答题。OpenAI 为每种考试形式设计了单独的提示(prompt),并且在需要的场合增加了图像输入。GPT-4
14、 并未专门针对这些考试科目进行训练,但仍取得了优秀的成绩,例如以大约前 10%的成绩通过模拟律师资格考试,而 GPT-3.5 在该考试中成绩为后 10%。GPT-4 API 价格价格GPT-3.5 API 价格价格 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。5 计算机计算机 图表图表4:GPT-4 在各种人类考试中表现优异在各种人类考试中表现优异 资料来源:GPT-4 Technical Report,OpenAI(2023)、华泰研究 GPT-4 在考试中在考试中展现展现的能力未受到的能力未受到 RLHF 的显著影响。的显著影响。基于人类反馈的强化学习(RLHF)是 Ins
15、tructGPT 中引入的方法,通过奖励的形式让模型输出向人类希望的方向发展。为了测试 RLHF 对模型能力的影响,OpenAI 在 GPT-4 基础模型和 RLHF 后的 GPT-4 模型上运行了考试基准测试中的多项选择题部分。在所有考试中,基础模型的平均分为 73.7%,而 RLHF模型的平均分为 74.0%,这表明经过 RLHF 后并没有显著改变基础模型的能力。图表图表5:RLHF 未对未对 GPT-4 在考试中展现的能力在考试中展现的能力产生产生显著影响显著影响 资料来源:GPT-4 Technical Report,OpenAI(2023)、华泰研究 免责声明和披露以及分析师声明是报
16、告的一部分,请务必一起阅读。6 计算机计算机 GPT-4 在评估语言模型的传统基准上同样效果卓越。在评估语言模型的传统基准上同样效果卓越。在评估 GPT-4 在语言模型的测试基准时,对所有模型使用了 few-shot。测试基准涵盖问题多选、常识推理、代码、阅读理解、数学问题等。结果表明,GPT-4 大大优于 GPT-3.5,以及以前最先进的(SOTA)模型,甚至超过了某些在特定测试标准上训练过的模型。图表图表6:GPT-4 在在评估语言模型的传统基准上评估语言模型的传统基准上取得优秀取得优秀效果效果 资料来源:GPT-4 Technical Report,OpenAI(2023)、华泰研究 G
17、PT-4 在大多数语言上的结果都优于在大多数语言上的结果都优于 GPT 3.5 和现有语言模型。和现有语言模型。现有的多数机器学习测试基准都是基于英语编写的。为了测试 GPT-4 在其他语言中的表现,OpenAI 使用 Azure Translate 将 MMLU 基准测试(涵盖 57 个主题的多项选择问题)翻译成各种语言。结果表明,GPT-4 在大多数语言上的结果都优于 GPT 3.5 和现有语言模型的英语语言性能,包括全球使用人数较低的语言,如拉脱维亚语、威尔士语和斯瓦希里语。免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。7 计算机计算机 图表图表7:GPT-4 在大多数语言
18、上的结果都优于在大多数语言上的结果都优于 GPT 3.5 和现有语言模型和现有语言模型 资料来源:GPT-4 Technical Report,OpenAI(2023)、华泰研究 GPT-4 在跟踪用户意图的能力方面在跟踪用户意图的能力方面提高显著提高显著。据 OpenAI 数据,OpenAI 收集了通过ChatGPT 和 OpenAI API 提交的用户提示,过滤掉不允许、敏感内容或过于简单的提示,并将这些提示和响应发送给人工标注员。根据指示,标注人员在不知道答案来源于哪种模型的情况下,判断给出的提示是否符合用户的要求。在 5214 个提示数据集中,GPT-4 生成的响应在 70.2%的提示
19、上优于 GPT-3.5 生成的响应。免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。8 计算机计算机 技术拆解:技术拆解:构建深度学习堆栈构建深度学习堆栈,新增奖励训练模型,新增奖励训练模型 项目重点:项目重点:构建构建大范围可预测大范围可预测的深度学习堆栈的深度学习堆栈 GPT-4 项目的一大重点是构建项目的一大重点是构建大范围可预测大范围可预测的深度学习堆栈。的深度学习堆栈。简而言之,该堆栈(stack,论文中也叫基础设施和优化方法)能够通过评估小计算量模型的性能,准确预测大计算量模型的性能,减少训练成本。以 GPT-4 为例,虽然官方未给出具体的模型参数,但是指出对于 GPT
20、-4 这样的大型训练,进行广泛的特定于模型的调优是不可行的。而大范围可预测的深度学习堆栈,能够通过计算比 GPT-4 计算量少 1000 x-10000 x(x 代表倍)的模型性能,预测出“完全体”GPT-4 的性能,实现在训练之前了解模型的功能,并及时改善关于对齐、安全性和部署的决策。该方法的理论依据是:经过适当训练的大型语言模型的最终损失,很好地近似于用于训练模型的计算量的幂律。图表图表8:基于基于 final loss 构建构建的大范围可预测的大范围可预测深度学习堆栈深度学习堆栈 资料来源:GPT-4 Technical Report,OpenAI(2023)、华泰研究 除了预测最终损失
21、,还可以使用其他可解释的能力指标进行预测。除了预测最终损失,还可以使用其他可解释的能力指标进行预测。其中一个指标是HumanEval 数据集的通过率。HumanEval 数据集衡量的是合成不同复杂度的 Python 函数的能力。通过计算比 GPT-4 计算量少 1000 x 模型在 HumanEval 数据集子集的通过率,成功预测了 GPT-4 在 HumanEval 数据集子集的通过率。图表图表9:基于基于 HumanEval 数据集数据集构建构建的大范围可预测的大范围可预测深度学习堆栈深度学习堆栈 资料来源:GPT-4 Technical Report,OpenAI(2023)、华泰研究
22、免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。9 计算机计算机 训练方法训练方法:在:在 InstructGPT 方法基础上增加新的奖励模型方法基础上增加新的奖励模型 预训练之后,预训练之后,GPT-4 采用了与采用了与 InstructGPT 同样的方法进行同样的方法进行 RLHF。OpenAI 首先从人类标注员处收集演示数据(给定一个输入,演示模型应该如何响应),并对模型的输出数据进行排名(给定一个输入和几个输出,将输出从最好到最差进行排序)。然后执行以下步骤:1)利用收集到的人工标注演示数据,使用监督学习(SFT)来模拟演示中的行为以微调GPT-4;2)使用收集到的排名数据
23、来训练奖励模型(RM),该模型预测标注员对给定输出的平均偏好;3)使用奖励模型和强化学习(特别是 PPO 算法),优化 GPT-4 SFT 模型。图表图表10:InstructGPT 训练步骤训练步骤 资料来源:Training language models to follow instructions with human feedback、华泰研究 基于规则的奖励模型基于规则的奖励模型以以更细的粒度进一步引导模型。更细的粒度进一步引导模型。RLHF 微调后的模型仍然会不时出现人类不想看到的行为。因此,OpenAI 在 RLHF 基础上增加基于规则的奖励模型(RBRMs)。RBRM 是一组
24、 zero-shot 的 GPT-4 分类器(classifier)。分类器在 RLHF 微调期间针对正确行为(例如拒绝生成有害内容或不拒绝无害请求),向 GPT-4 策略模型提供额外的奖励信号。RBRM 有三个输入:提示(可选)、策略模型的输出和人类编写的用于如何评估输出的规则。在安全相关的训练提示集上,奖励 GPT-4 拒绝有害内容请求,例如非法建议;同样奖励GPT-4 没有拒绝对安全和可回答问题的请求。第一步:收集描述性数据,并训练一收集描述性数据,并训练一个有监督个有监督的策略的策略从prompt数据库中取样向一个6岁智力的模型解释强化学习由人类训练师撰写期望的输出值对行为给出奖励与惩
25、罚收集的数据用来以监督学习的方式微调GPT-3模型第二步:收集比较性数据,并训练一个奖励收集比较性数据,并训练一个奖励模型模型从prompt数据库中取样,并得到数个模型的回答向一个6岁智力的模型解释强化学习A回答A:“.”B回答B:“.”C回答C:“.”D回答D:“.”由人类训练师对回答进行排序DCAB收集的数据用来训练我们的奖励模型DCAB第三步:用用PPO强化学习算法通过奖励模型优强化学习算法通过奖励模型优化策略化策略从prompt数据库中另外取样示例:“写一段关于.的故事”示例:“很久以前”策略给出回答奖励模型对回答打分用奖励通过PPO算法优化策略PPORM 免责声明和披露以及分析师声明
26、是报告的一部分,请务必一起阅读。10 计算机计算机 多模态:支持图片输入,未提供具体算法多模态:支持图片输入,未提供具体算法 GPT-4 能够实现图片和文本的多模态输入。能够实现图片和文本的多模态输入。GPT-4 接受由图像和文本组成的提示(prompt,与纯文本设置类似),允许用户指定任何视觉或语言任务,同时输出文本信息。此外,语言模型中的 few-shot 提示和思维链等,在 GPT-4 中同样有效。但是,OpenAI 未在技术文档中给出如何实现图片的输入,以及如何对图片进一步处理以注入到模型中。图表图表11:GPT-4 视觉输入样例视觉输入样例#1 资料来源:GPT-4 Technica
27、l Report,OpenAI(2023)、华泰研究 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。11 计算机计算机 图表图表12:GPT-4 视觉输入样例视觉输入样例#2(展现出思维链能力,能一步步进行思考)(展现出思维链能力,能一步步进行思考)资料来源:GPT-4 Technical Report,OpenAI(2023)、华泰研究 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。12 计算机计算机 安全性讨论:引入专家安全性讨论:引入专家提高提高模型模型安全性和一致性安全性和一致性 局限性局限性:仍存在推理错误与校准下降等问题:仍存在推理错误与校准下降等问题
28、GPT-4 仍存在“幻觉”和推理错误。仍存在“幻觉”和推理错误。幻觉指的是产生与某些来源有关的无意义或不真实的内容。但是,与 GPT-3.5 模型相比,GPT-4 显著减少了幻觉,并在内部的对抗性事实性评估中,在所有项的准确率均分比最新的 GPT-3.5 高出 19pct。与 ChatGPT 类似,GPT-4 写的训练数据均是 2021 年 9 月之前的,因此缺乏对该日期之后的知识的掌握,会犯一些简单的推理错误,接受用户的明显错误陈述,或在在生成的代码中存在安全漏洞。图表图表13:GPT-4 在对抗性设计事实评估中的表现优在对抗性设计事实评估中的表现优于于 ChatGPT 资料来源:GPT-4
化工行业:原油较大幅度下跌后建议关注炼厂成本改善-20221121(21页).pdf
建筑行业跟踪报告:“一带一路”共建繁荣聚焦“绿色基建”走出去-221121(31页).pdf
康恩贝深度研究报告:OTC及处方药齐头并进着力打造“浙江中医药健康产业主平台”-20221121(22页).pdf
激智科技-光伏胶膜加持打造薄膜平台型公司-221121(35页).pdf
交通运输行业航运系列深度研究Ⅱ:成品油轮行业研究框架-221115(60页).pdf
吉林碳谷-国内碳纤维原丝生产龙头行业景气度上行+市场份额一家独大-221121(18页).pdf
交通运输行业深度报告-从供销体系流通服务网络提升建设看投资机会-20221120(19页).pdf
华铁应急-轻装上阵迅速扩容数字网络化布局提质增效-221121(30页).pdf
建科股份-建工建材检测翘楚布局拓宽加速成长-221122(29页).pdf
今世缘-产品结构持续升级冲击目标增长可期-221121(35页).pdf
华大智造-基因测序仪国产之光具备全球竞争力-221121(35页).pdf
计算机行业专题报告:国产化及数据要素化驱动数字经济长牛-221121(26页).pdf
IAS:2021年开放式测量软件开发包指南(英文版)(9页).pdf
INTERSOS:人道主义环境中提供法律援助的经验与教训报告(英文版)(43页).pdf
KROC:哥伦比亚最后和平协议中的妇女权利落实行动报告(英文版)(49页).pdf
MMA:现代营销清算者(英文版)(245页).pdf
NRG:在家工作:服务组织的最佳实践(英文版)(18页).pdf
Payments Cards and Mobile:支付行业市场情报(英文版)(8页).pdf
RollWorks:在反导平台中寻找什么(英文版)(28页).pdf
Time Coin Protocol:2021年分散共享经济协议白皮书(英文版)(50页).pdf
可持续发展的最后一英里:更快更便宜更环保(英文版)(24页).pdf
云安全重要性及使用报告(英文版)(16页).pdf
2020年消费品增长领导者报告(英文版)(14页).pdf
波士顿咨询公司(BCG):用真实世界的证据改变临床试验(英文版)(7页).pdf
区块链行业专题研究:GPT4下的杀手级应用~数字人-230313(16页).pdf
计算机行业专题研究:GPT系列经典深度学习算法拆解-230312(22页).pdf
计算机行业专题研究:GPU计算机图显核心计算场景应用崛起-211110(33页).pdf
计算机行业深度研究:文心一言、GPT3.5及GPT~4的应用测评对比-230319(32页).pdf
计算机行业专题研究:关注ChatGPT四大应用主线-230213(13页).pdf
【研报】计算机行业5G应用专题研究:V2X车联网5G新基建领头雁-20200612[29页].pdf
计算机应用行业深度研究报告:电力信息化专题研究之二他山之石-从海外智能电网建设看“双碳”带来的投资机会-20220119(30页).pdf
蜜雪冰城招股说明书-连锁茶饮第一股(724页).pdf
线上健身第一股-keep招股说明书(463页).pdf
麦肯锡:2023中国消费者报告:韧性时代(33页).pdf
罗振宇2023“时间的朋友”跨年演讲完整PDF.pdf
QuestMobile:2022新中产人群洞察报告(37页).pdf
QuestMobile:2022年中国短视频直播电商发展洞察报告(30页).pdf
町芒:2022现制茶饮行业研究报告(47页).pdf
小红书:2023年度生活趋势报告(34页).pdf
QuestMobile:2021新中产人群洞察报告(30页).pdf
锐仕方达&薪智:2022年薪酬白皮书(105页).pdf