《哈尔滨工业大学:ChatGPT的过去、现在与未来(2023)(74页).pdf》由会员分享,可在线阅读,更多相关《哈尔滨工业大学:ChatGPT的过去、现在与未来(2023)(74页).pdf(74页珍藏版)》请在三个皮匠报告上搜索。
1、ChatGPT的过去、现在与未来报告人:冯骁骋哈尔滨工业大学/社会计算与信息检索研究中心(SCIR)2023年02月15日ChatGPT的出现行业报告新闻报道热烈讨论频繁热搜国外大厂国内大厂ChatGPTCCF SPP将会改变世界的对话式通用人工智能模型ChatGPT微软联合创始人比尔盖茨:像ChatGPT这样的AI聊天机器人将变得与个人电脑或互联网同样重要。三体:拯救派 降临派SpaceX、特斯拉公司总裁 埃隆马斯克:ChatGPT好得吓人,我们离危险的强人工智能不远了。Meta首席科学家、图灵奖得主杨立昆:就底层技术而言,ChatGPT并不是多么了不得的创新。虽然在公众眼中,它是革命性的,
2、但是我们知道,它就是一个组合得很好的产品,仅此而已。美国作家、Robust.AI公司创始人加里马库斯:生成式人工智能 将对社会结构产生切实的、迫在眉睫的威胁。英伟达总裁黄仁勋:ChatGPT是AI领域iPhone,是更伟大事物的开始。CCF SPPChatGPT 的定义pChatGPT 是2022年11月美国人工智能公司OpenAI所推出的生成式对话预训练模型。它通过对话的形式进行交互,对话的形式使得其能够回答后续问题,承认自己的错误,质疑不正确的前提,并拒绝不适当的请求。CCF SPPChatGPT 的定义pChatGPT 是2022年11月美国人工智能公司OpenAI所推出的生成式对话预训
3、练模型。它通过对话的形式进行交互,对话的形式使得其能够回答后续问题,承认自己的错误,质疑不正确的前提,并拒绝不适当的请求。ChatGPT将加速通用人工智能的实现对人工智能技术的颠覆性影响CCF SPP什么是智能?“智能行为包括知觉、推理、学习、交流和在复杂环境中的行为。”尼尔逊(美国斯坦福大学)人类、动物经过亿万年自然进化形成的智慧和能力听、说、读、写、看移动、飞翔、搬运、操作感觉、知觉、理解、联想、推理、规划学习、决策、记忆、回忆、创造、顿悟CCF SPP什么是人工智能?p人工智能,简称AI p英文:Artificial Intelligencep人工智能是人工制造出来的机器,用以对人的意识
4、、思维、认知功能进行模拟的一门学科.人造的机器或系统“人工”通常指人类自身的智能(类人智能)感知与识别、认知智能(决策与优化、学习与推理)、运动智能 也包括其他人造系统的智能“大狗”机器人:四足运动“大鸟”机器人:双翅飞行“智能”CCF SPP科幻电影中的人工智能哆啦A梦机器姬超能陆战队机器人总动员终结者终结者CCF SPP实际生活中的人工智能跳舞机器人扫地机器人餐厅服务机器人SiriCCF SPP弱人工智能、强人工智能、超级人工智能强人工智能(AGI,General)通用人工智能 机器具有真正的推理和解决问题的能力,与人类一样拥有进行所有工作的可能 可能会对人类生存产生威胁 暂时没有实现的可
5、能弱人工智能(ANI,Narrow)完成特定任务的人工智能 表现出像是有智能的样子 不具有自我意识 不会威胁到人类生存 目前,已经实现了越来越多的弱人工智能超级人工智能(ASI,Super)超级人工智能是指具有自我意识,包括独立自主的价值观、世界观等 在几乎所有领域都比最聪明的人类大脑都聪明很多,包括科学创新、通识和社交技能“弱人工智能”的集合“强人工智能”同时解决所有的自然语言处理任务刷爆了100余个数据集CCF SPP什么是自然语言处理?p自然语言指的是人类语言,特指文本符号,而非语音信号p自然语言处理(Natural Language Processing,NLP)p用计算机来理解和生成
6、自然语言的各种理论和方法p语言是更高级的一种认知智能p需要更强的抽象和推理能力运算智能能存会算感知智能能听会说,能看会认认知智能能理解会思考CCF SPP自然语言处理的难点与特点语言歧义性抽象性组合性进化性非规范性主观性知识性难迁移性p优势p存在大量可以利用的先验知识p难点p研究问题纷繁复杂,难以被单一模型处理p难以获得大量标注数据p难度大,触及常识、推理等认知能力p部分课题评测难度高p通用性弱,与行业关联性强刷爆了100余个数据集CCF SPP自然语言处理发展历史p自然语言处理范式变迁规则搭配词典Examples from Xiao and Zhu,SMT-Book小规模专家知识195019
7、90浅层机器学习算法19902010深度学习算法20102017大规模预训练模型20182023?CCF SPP自然语言处理发展历史p自然语言处理范式变迁小规模专家知识19501990浅层机器学习算法19902010深度学习算法20102017大规模预训练模型20182023?语料特征概率Examples from Xiao and Zhu,SMT-BookCCF SPP自然语言处理发展历史p自然语言处理范式变迁小规模专家知识19501990浅层机器学习算法19902010深度学习算法20102017大规模预训练模型20182023?向量参数学习模型词汇表示平行句对美丽是哈尔滨一座城市Enco
8、derDecoderAttentionaHarbinEOSisBeautifulCityaHarbinisBeautifulCCF SPP自然语言处理发展历史p自然语言处理范式变迁小规模专家知识19501990浅层机器学习算法19902010深度学习算法20102017大规模预训练模型20182023?向量参数学习模型词汇表示平行句对CCF SPP自然语言处理发展历史p自然语言处理范式变迁小规模专家知识19501990浅层机器学习算法19902010深度学习算法20102017大规模预训练模型20182023?预训练+精调=自然语言处理新范式未标注文本语料库模型训练数据标注模型预训练模型精调F
9、ine-tune预训练Pre-trainCCF SPP自然语言处理发展历史p自然语言处理范式变迁小规模专家知识19501990浅层机器学习算法19902010深度学习算法20102017大规模预训练模型20182023?p利用语言天然的顺序性p我 喜欢 吃 土豆 炖XXp两种任务类型p语言模型p 通过历史词序列预测下一个词p完形填空p 通过周围的词预测中间的词?CCF SPP自然语言处理发展历史p自然语言处理范式变迁小规模专家知识19501990浅层机器学习算法19902010深度学习算法20102017大规模预训练模型20182023?双向掩码模型(2018)单向自回归生成模型(2018)编
10、码器解码器架构(2019)CCF SPP预训练模型p模型规模与表现正相关,因此不停追求越来越大的规模p随着模型规模越来越大,“涌现”出了令人惊讶的“智能”预训练语言模型成为自然语言处理领域全新的技术范式Large Language Models:A New Moores Law?-Hugging FaceCCF SPP2018202020192022.112023?2022.3发展历程GPT-1:Improving Language Understanding by Generative Pre-TrainingKeyword:unsupervised pre-training,supervi
11、sed fine-tuning,auxiliary objectiveGPT-2:Language Models are Unsupervised Multitask LearnersGPT-3:Language Models are Few-Shot LearnersKeyword:multi-taskKeyword:few-shot,one-shot,zero-shotGPT-4ChatGPT is a sibling model to InstructGPTInstructGPT:Training language models to follow instructionswith hu
12、man feedbackKeyword:instruct learning,labeler-written prompts,reinforcement learning from humanfeedbackChatGPT:OptimizingLanguage Models for Dialogue过去现在未来CCF SPP目 录C O N T E N T SGPT的相关背景1GPT系列介绍2哈尔滨工业大学社会计算与信息检索研究中心Instruct GPT与ChatGPT3GPT4及相关猜想4CCF SPPChatGPT的过去哈尔滨工业大学社会计算与信息检索研究中心GPT-1/2/3!#$CCF
13、 SPP模型规模GPTdmodel=768,context_size=512,layer_num=12,attention_num=12GPT-2dmodel=1600,context_size=1024,layer_num=48,attention_num=12,param=1.5B,size=774MGPT-3dmodel=12288,context_size=2048,layer_num=96,attention_num=96,param=175B,size=70G模型结构与规模十倍百倍CCF SPP训练数据GPT-1 BookCorpus 大约7000本书尚未出版GPT-2 WebTe
14、xt 具有来自800万个文档的40GB文本数据GPT-3 Common Crawl WebText2 Books1 Books2 Wikipedia 一共570G数据CCF SPPGPT-1哈尔滨工业大学社会计算与信息检索研究中心Improving Language Understanding by Generative Pre-TrainingCCF SPPGPT-1使用方法GPT usage:pre-training+fine-tuningGPT Keyword:unsupervised pre-training,supervised fine-tuning,auxiliary objec
15、tiveCCF SPP实验表现p在比较模型的12个任务中(如问题解答,模式解析,情感分析等),GPT-1在9个任务上的表现要优于经过专门训练的有监督最新模型pGPT-1的一个重要成就是其在各种理解任务上的具有较为出色的zero-shot性能pGPT-1证明语言模型是有效的预训练目标,可以帮助模型很好地推广p模型层数变化和参数对实验结果的影响大模型大数据CCF SPPGPT-2哈尔滨工业大学社会计算与信息检索研究中心Language Models are Unsupervised Multitask LearnersCCF SPPGPT使用方法GPT-2 usage:zero shot or o
16、ne shotpZero-shot:以文本摘要为例p输入:原文+“TL;DR”p输出:摘要pOne-shot:以机器翻译为例p输入:“English sentence1=French sentence1”+“English sentence2=”p输出:“French sentence2”GPT2 Keyword:multi-task(Generation)CCF SPP实验表现pGPT-2在多个下游任务数据集上进行了评估,例如阅读理解、摘要、翻译以及问题解答等pGPT-2在zero-shot设置下改进了8种语言建模数据集中7种state-of-the-art水平p在阅读理解任务中,GPT-2
17、在zero-shot设置下胜过4个基准模型中的3个p在法语到英语的翻译任务中,GPT-2在zero-shot设置下的表现优于大多数无监督模型,但没有超越最新的无监督模型构建更大的语言模型将减少困惑度,并使语言模型更好理解自然语言CCF SPPGPT-3哈尔滨工业大学社会计算与信息检索研究中心Language Models are Few-Shot LearnersCCF SPP模型架构pGPT3=GPT2+Sparse Attentionp传统(稠密)注意力机制:p局部注意力机制:p膨胀(带状)注意力机制:p稀疏注意力机制是局部和膨胀注意力机制的结合:CCF SPP使用方法pGPT3 Keyw
18、ord:In-context Learning(few-shot,one-shot,zero-shot)p架构笨重,缺乏可解释性p缺少常识,对模型所产生的结果缺乏可解释性p数据偏见问题pGPT-3生成的文本具有其所训练语言的偏见GPT-3 Beta 测试样例Qusetion:Which is heavier,a toaster or pencil?GPT-3:A pencil is heavier than a toaster.Qusetion:How many eye does a giraffe have?GPT-3:A giraffe has two eyes.Qusetion:How
19、many eye does my foot have?GPT-3:Your foot has two eyes.GPT-3花了24个月实现用户破百万(ChatGPT5天)Instruct Learning(zero-shot/prompts)zero-shotone-shotfew-shotCCF SPPChatGPT的现在哈尔滨工业大学社会计算与信息检索研究中心Instruct GPT/ChatGPTCCF SPPChatGPT/InstructGPT的成功之处情景学习思维链指令学习大模型的涌现能力改变传统学习范式大模型的涌现能力打破模型参数约束人在环路增强对齐人类意图ChatGPT的三个关
20、键能力Credits:Xipeng QiuCCF SPPInstructGPT演进路径(已知=未知)InstructGPT 的进化树已知未知未知未知未知https:/ SPPInstructGPT演进路径(能力猜测)InstructGPT 的进化树https:/ Tuningp将任务用Prompt形式统一p精调语言模型(Instruction Tuning)p模型能够处理未见任务p思维链能力:在代码上进行继续预训练p代码分步骤、模块解决问题p涌现出逐步推理能力(COT)p和人类对齐能力:RLHFp结果更符合人类的预期(多样性、安全性)p利用真实用户的反馈(AI正循环、飞轮)CCF SPP指令微
21、调(Instruction Tuning)Credits:https:/docs.cohere.ai/docs/prompt-engineeringCCF SPP指令微调(Instruction Tuning)Credits:https:/docs.cohere.ai/docs/prompt-engineeringCCF SPP情景学习(In-Context Learning)Credits:https:/docs.cohere.ai/docs/prompt-engineeringCCF SPP情景学习(In-Context Learning)This is a movie review se
22、ntiment classifier.Review:I loved this movie!This review is positive.Review:I dont know,it was ok I guess.This review is neutral.Review:What a waste of time,would not recommend this movie.This review is negative.Review:I really enjoyed this movie!This review isCredits:https:/docs.cohere.ai/docs/prom
23、pt-engineeringCCF SPPWei.et.al.2022.Chain-of-Thought Prompting Elicits Reasoning in Large Language Models思维链(Chain-of-Thought,COT)p思维链表示一系列中间推理步骤,相当于在求解问题过程中将解题步骤也写出来CCF SPPCode-aided ReasoningPAL:Program-aided Language ModelsCCF SPPWei.et.al.2022.Chain-of-Thought Prompting Elicits Reasoning in Larg
24、e Language Models思维链(Chain-of-Thought,COT)p思维链表示一系列中间推理步骤,相当于在求解问题过程中将解题步骤也写出来打破Scaling Law的关键CCF SPPReinforcement Learning from Human Feedback(RLHF)!#$%&()*+,-./012GPT-334!5346789:;?,()A34BCA34,DEFGHIJPPOKL534MN()OProximal Policy OptimizationPCCF SPP过去 Token-level RL 为什么没有成功pToken-level 太稀疏,rollout
25、 太慢pReward model 太小,容易学到 reward 的弱点Minlie HuangCCF SPP第一步:有监督微调(SFT)-1p训练 InstructGPT-beta 版本pSFT(Supervised fine-tuning):在人工书写的示例上进行有监督微调,该方式得到的模型有 davinci-instruct-betap标注人员手写 promptspPlain:标注人员提出任意一个任务,同时保证任务的多样性pFew-shot:要求标注人员提出一个指令,以及在该指令下的多轮“查询-回复”pUser-based:根据用户在 OpenAI API 各种应用程序中提交过的用例(涵盖
26、GPT3 API)CCF SPPp数据样例数据集的构建:用户 prompts 数据样例CCF SPP第一步:有监督微调(FeedME)-2https:/ SPP第一步:有监督微调(FeedME)-2pFeedME(Feedback Made Easy):在人工书写的示例以及标注者选择的模型最佳输出上进行有监督微调,该方式得到的模型有 text-davinci-001,text-davinci-002p标注人员手写 prompts,为labelerp通过开源text-davinci-001收集了更多的prompts,customerpFeedME(Feedback Made Easy):选择模型
27、最佳输出,无需标注,7/7(具体细节未知)https:/ SPP数据质量+多样性CCF SPP第二步:训练奖励模型p收集排序数据,训练奖励模型p采样出一条 prompt 以及第一步模型的多条输出p标注人员对模型的输出进行由好到坏的排序p奖励模型由参数量为6B的SFT模型初始化,输入prompt以及第一阶段模型的回复,输出是0-1之间的分数。利用排序好的数据,根据Pairwise Ranking Loss优化奖励模型来模拟标注人员的偏好CCF SPP第二步:训练奖励模型pPairwise Ranking LosspLoss =!,$#,$&log(,(,)p只提供了标注人员标注的排序数据,需要转
28、化为reward模型打分的损失p利用 pairwise ranking loss,最大化两个排序数据之间的打分差距pPairwise 能够有效地增加训练数据p如果将每个*+候选pair当作一个独立的训练样本,会导致过拟合p每个样本pair会进行 K-1 次梯度更新,导致过拟合p将!个两两排序的候选pair放在同一个 batch 中进行梯度下降,一方面防止过拟合,另一方面能够带来计算代价上的优化CCF SPP数据质量+多样性CCF SPP第三步:强化学习p使用强化学习PPO算法优化policyp从数据集中采样出一条新的promptpPolicy模型首先利用第一阶段微调得到的SFT模型初始化,然后
29、根据prompt生成对应的模型输出p第二步训练得到的奖励模型对该输出计算reward,并利用该reward通过proximal policy optimization(PPO)算法优化Policy CCF SPP第三步:强化学习p优化目标中的正则项约束p =,$&%&(,log(,-./01(|)+&)*+,*-./log(,-.()p当利用RLHF对Policy进行更新后,RL Policy的输出会和训练奖励模型时用的SFT模型输出不同,会导致奖励模型的reward估计效果变差p加入KL散度惩罚项,使得Policy模型的输出和SFT模型的输出别相差太远p仅仅通过模拟人类偏好来优化模型会使得模
30、型在很多NLP任务上性能退化p加入一个额外的语言模型在预训练数据上的优化目标CCF SPP第四步:飞轮优化123飞轮优化CCF SPPInstructGPT 和 ChatGPT 的区别pChatGPT 能够生成更加翔实的回复:可能来源于训练奖励模型过程中标注人员对“更加翔实的回复”的偏好=偏好冗长pChatGPT 更加擅长多轮对话的内容形式:可能来源于指令微调过程中标注人员标注的多轮对话数据pChatGPT 能够更好地捕获多轮对话中的COT和长程依赖:可能来源于 ChatGPT 的初始化模型GPT3.5 在代码上的预训练,InstructGPT 论文没有CCF SPPChatGPT的未来哈尔滨
31、工业大学社会计算与信息检索研究中心GPT-4%&()CCF SPPGPT-4 模型的谣言p发布时间在最近的一次访谈活动中,OpenAI 的CEO Sam Altman 被问及 GPT-4 是否会像许多人预期的那样在第一季度或今年上半年推出。他没有给出具体的时间,只是说:“在我们有信心它可以安全且负责任地运行时,它自然就会出现。”CCF SPPGPT-4 模型的谣言p模型参数规模Altman 还被问及 GPT-4 的参数规模是否会像网上广为流传的一样,将达到惊人的100万亿参数,Altman 称其为“一派胡言”CCF SPPGPT-4 模型的谣言p多模态多模态大模型是一项极具挑战性的任务。虽然O
32、penAI 称深度学习的未来是多模态模型,但是Altman 在采访中称GPT 4会和前三代一样仍然是纯文本模型。CCF SPPGPT-4 应具备的优化策略猜测p词表优化模型大小和训练数据规模应该匹配。DeepMind通过实验表明,参数量为 70B 的Chinchilla模型,在使用1.4Trillion tokens 训练后,在多个下 游 任 务 上 的 性 能 都 超 过 了 在300Billion tokens 上训练的 280B参数量的Gopher模型。GPT4 Facts&Reasonable ExpectationsCCF SPPGPT-4 应具备的优化策略猜测p计算优化考虑到 GP
33、T-4 的参数比 GPT-3 略大,根据DeepMind的发现,让其达到最优计算水平所需要的训练 token 量应该在 5 万亿左右,这要比当前数据集高出一个量级。按照DeepMind Gopher 模型的算力消耗,达成最小训练损失所需要的算力总量则相当于 GPT-3 的约 10 至 20 倍。GPT4 Facts&Reasonable ExpectationsCCF SPPGPT-4 应具备的优化策略猜测p延续 RLHF 的训练策略,进一步增强与人类对齐的能力在 OpenAI 的 InstructGPT 论文中,使用 RLHF 训练策略优化的1.3B参数规模的 InstructGPT 模型,
34、要显著优于175B参数规模的 GPT-3 模型。GPT4 Facts&Reasonable ExpectationsCCF SPPGPT-4 应具备的优化策略猜测p最优参数化微软和 OpenAI 发现了一种新的参数化方法(P),这是一种优化大型神经网络训练的方法。简而言之,P 可用于在不同模型大小之间传输超参数,从而减少了在为给定模型寻找最佳超参数时反复试验的需要。微软和 OpenAI已经证明只要用最佳超参数训练模型,GPT-3能够借此实现性能飞跃。GPT4 Facts&Reasonable ExpectationsCCF SPP自然语言处理还会走多远?更大的模型、更多的数据、更多领域?小规模
35、专家知识19501990浅层机器学习算法19902010深度学习算法20102017大规模预训练模型2018GPT-4CCF SPP点亮更多的技能ChatGPT将加速通用人工智能的实现。Credits:Duan NanCCF SPP扩大交互范围p模型将继续沿着“同质化”和“规模化”的道路发展p拓展除语言之外的认知能力,寻找新的“知识”来源p规则 算法 数据 体验(Experience)pBisk等人(2020)将其称为“世界范围”(World Scope,WS)WS5社会:与人类社会互动WS4具身:与物理世界互动用户WS3多模态:听觉、视觉WS2网络文本数据WS1小规模语料库现阶段未来早期非交互式交互式CCF SPP安全使用,科技向善GPT-全家桶我们如何应对ChatGPT的挑战?p自主可控p联合企业或超算中心,训练自己的大模型p以开源大模型(OPT、BLOOM等)为基础继续预训练谢谢!冯骁骋哈工大-社会计算与信息检索研究中心