《清华大学:从千亿模型到ChatGPT的一点思考(2023)(67页).pdf》由会员分享,可在线阅读,更多相关《清华大学:从千亿模型到ChatGPT的一点思考(2023)(67页).pdf(67页珍藏版)》请在三个皮匠报告上搜索。
1、1从千亿模型到ChatGPT的点思考清华学计算机系 知识程实验室(KEG)唐杰2试试我们的系统 ChatGLM-6B开源,10天 10000 stars 当天在 GitHub 的趋势排行第一 过去10天在Huggingface趋势排行第一 开源的训练数据量达到1万亿字符的模型3预训练模型预训练大模型是新一代人工智能应用的基础设施nTransformer应用在OpenAI GPT 1中,Transformer架构是预训练大模型的技术基础2018年GPT模型参数1.1亿大模型从单模态向多模态发展,从文本逐步发展到视觉、虚实迁移控制大模型通用能力强,可完成多场景任务,降低成本,提高效率现有300+应
2、用基于OpenAI GPT-3开发OpenAI与阿里、智源均已推出多模态模型大模型已成为各国人工智能技术新方向,亟需建立以中文为核心的超大规模预训练模型nOpenAI GPT 2.0nBAIDU Ernie 1.0,基于Bert 模型做进一步优化2019年GPT-2模型参数15亿nOpenAI GPT 3,跨时代意义的语言大模型,标志着AI文本生成到下一个阶段2020年GPT-3模型参数1750亿悟道2.0模型参数1.75万亿nDALL-E/Clip:OpenAI大规模图像模型,可基于短文本生成对应图像和进行图像分类nAliceMind:阿里大规模多模态模型,集合语言理解与生成能力2021年D
3、ALL-E 模型参数1.6万亿n出现大规模基于预训练模型的应用nGLM-130B:125T中英文文本6亿图+千万级视频千万级别知识图谱nChatGPT:在问答模型中引入人类反馈强化学习,大幅提升生成结果质量2022年GLM-130B大模型模型参数1300亿GPT-2GPT-3ChatGPTnChatGLM:基于GLM-130B底座,具备问答和对话功能的千亿中英双语模型nGPT-4:多模态大模型,可同时实现图像和文本输入nErnie Bot(文心一言):百度全新一代知识增强大语言模型2023年ChatGPT,GPT-4ChatGLMDALLEGPT-4DALLE4ChatGPT带来的机遇与挑战4
4、ChatGPT的出现表明我们在大模型上的研究还存在代差同时ChatGPT仍然存在认知推理能力不足的问题,常识缺乏成功:逻辑性很强不足:缺乏常识6我们的点点进展6清华、智谱联合在国产超算海洋之光上参与训出悟道1.75万亿模型全机性能单精度混合精度万亿模型647 PFLOPS1.18 EFLOPS十万亿模型525 PFLOPS1.00 EFLOPS百万亿模型198 PFLOPS230 PFLOPS适配国产超算的DeepSpeed兼容库系统算法协同设计,具备全机训练百万亿模型的能力国家超算济南中心智谱清 华国实集团国产大模型清华和国家超算济南中心、智谱联合研发了GLM-130B普惠模型训练成本由GP
5、T-3的460万美元降至600万元Attention层的Softmax采用单精度,1%的损失极大稳定了训练7千亿GLM-130B基础架构训练方式量化加速跨平台能力GPT3-175BGPT自监督预训练NVIDIA BLOOM-176BGPT自监督预训练INT8MegatronNVIDIAGLM-130BGLM自监督预训练和多任务预训练INT8/INT4FasterTransformerNVIDIA、海光 DCU、昇腾910 和申威对比优势高精度:Big-bench-lite:+5.2%LAMBADA:+2.3%CLUE:+24.3%FewCLUE:+12.8%普惠推理:节省75%内存可单台309
6、0(4)或单台2080Ti(8)进行无损推理高速推理:比Pytorch提速7-8.4倍Megatron提速2.5倍跨平台:支持更多不同的大规模语言模型的适配英文:在英文:在MMLU、LAMBADA、BIG-bench-lite等超过等超过GPT-3,OPT,PaLM自自2022年年8月发布以来,月发布以来,收到收到53个国家个国家369个研究机构个研究机构的使用需求的使用需求 Google Microsoft Meta AI2 Stanford MIT UC Berkely CMU Harvard Princeton Cambridge 华为 百度 阿里巴巴 腾讯 头条 滴滴 建设银行 智源
7、小冰 小米 北京大学 浙江大学 上海交大 中科大 复旦大学 中科院大学 香港大学 香港科技大学 清华大学中文:在中文:在CLUE 和和FewCLUE上远超上远超ERNIE 3.0,Yuan8千亿GLM-130BGLM-130B与OpenAI、Google、Meta、Microsoft等基础大模型相比,在部分评估指标上具有优势1.Liang et al.,Holistic Evaluation of Language Models.arXiv:2211.091109千亿GLM-130BStanford报告的世界主流大模型评测:亚洲唯一入选模型,准确性、恶意性与GPT-3持平,鲁棒性和校准误差在所
8、有模型中表现最佳InstructGPT davinciv2(175B*)GPT-3 davinci v1(175B)GLM(130B)BLOOM(176B)UL2(20B)YaLM(100B)OPT(175B)指令提示微调0.01.00.5准确性 AccuracyInstructGPT davinciv2(175B*)GPT-3 davinci v1(175B)GLM(130B)BLOOM(176B)UL2(20B)YaLM(100B)OPT(175B)0.01.00.5指令提示微调鲁棒性 RobustnessBig-bench-lite:+5.2%LAMBADA:+2.3%CLUE:+24.
9、3%FewCLUE:+12.8%30+评测SOTA双语高精度4*RTX3090可运行其他千亿模型的1/10INT8/4模型量化2-3倍推理加速高可用、低成本NVIDIA GPU、昇腾910、海光DCU、申威等芯片适配多平台适配1.Liang et al.,Holistic Evaluation of Language Models.arXiv:2211.09110校准误差 Calibration error恶意性 ToxicityInstructGPT davinciv2(175B*)GPT-3 davinci v1(175B)GLM(130B)BLOOM(176B)UL2(20B)YaLM(
10、100B)OPT(175B)0.01.00.5指令提示微调InstructGPT davinciv2(175B*)GPT-3 davinci v1(175B)GLM(130B)BLOOM(176B)UL2(20B)YaLM(100B)OPT(175B)0.01.00.5指令提示微调11OpenAI GPT系列模型GPT-2十亿模型GPT-3davinci千亿基座Codex百亿模型code-davinci-002代码数据预训练text-davinci-002InstructGPT有监督指令微调text-davinci-003(RLHF)ChatGPT(RLHF)18年6月19年2月20年5月21
11、年7月21年底22年11月23年2月GitHubCopilot人类反馈强化学习1.千亿基座模型2.有监督指令微调3.人类反馈强化学习读书受教育社会接轨GPT-3.5GPT-3+RLHFGPT-4GPT-1New Bing(GPT-4)23年3月WebGPT(RLHF)12OpenAI GPT系列模型GPT-2十亿模型GPT-3davinci千亿基座Codex百亿模型code-davinci-002代码数据预训练text-davinci-002InstructGPT有监督指令微调text-davinci-003(RLHF)ChatGPT(RLHF)18年6月19年2月20年5月21年7月21年底
12、22年11月23年2月GitHubCopilot人类反馈强化学习读书受教育社会接轨GPT-3.5GPT-3+RLHFGPT-4GPT-1New Bing(GPT-4)23年3月WebGPT(RLHF)GLM百亿模型清华&智谱 GLM 系列模型ChatGLM(SFT+RLHF)GLM-130B千亿模型CodeGeeX百亿模型VS Code/JetBrainsCodeGeeX插件20年11月22年8月21年5月mGLM十亿多语言ChatGLM-6B(SFT+RLHF)QAGLMWebGLM14OpenAI GPT系列模型GPT-3davinci千亿基座读书受教育社会接轨清华&智谱 GLM 系列模型
13、GLM-130B千亿模型数据神经网络预训练架构3000亿标识符2000亿中文2000亿英文GPT自回归生成GLM自回归填空Transformer(1750亿参数)Transformer(1300亿参数)15ChatGLM(v0.8)1516ChatGLM:JSON格式事件抽取17ChatGLM:Cosplay聊天18ChatGLM:创作剧本杀剧本写一个剧本杀大纲,关于古埃及神话,现代冒险,神秘组织。标题:古埃及神话的现代冒险简介:本剧本杀讲述了一群现代冒险家前往古埃及探险,无意中发现了神秘组织的阴谋,他们必须联手阻止这场危机。角色:1.亚历山大(Alexander):一位年轻的考古学家,对古埃
14、及文化充满热情。2.艾米丽(Emily):一位聪明的女大学生,对古埃及神话和宗教充满兴趣。3.布鲁斯(Bruce):一位经验丰富的探险家,擅长挖掘古代文物和宝藏。4.珍妮(Jenny):一位神秘的女子,似乎知道很多关于神秘组织的事情。5.神秘人(Mysterious Man):一个神秘的陌生人,经常出现在冒险家们的身边。场景:本剧本杀的场景设定在古埃及,冒险家们将在古埃及的神庙、陵墓和城市中寻找线索和答案。他们也会遇到各种古埃及神灵和神话中的生物,如奥西里斯、伊西斯、托特和哈托尔等。剧情:亚历山大是一位年轻的考古学家,他在研究古埃及文化时,发现了一些神秘的线索。他听说古埃及神话中的神灵和神话中
15、的生物与现代世界有着神秘的联系,于是决定前往古埃及探险。19ChatGLM:创作剧本杀剧本写一个剧本杀大纲,关于古埃及神话,现代冒险,神秘组织。在古埃及,亚历山大遇到了艾米丽和布鲁斯,他们一起进入了一些古老的神庙和陵墓中寻找答案。他们发现了一些古代文物和宝藏,但也遇到了一些危险。在一次战斗中,他们无意中发现了神秘组织的阴谋。神秘组织是一个古老的组织,他们试图通过古埃及神话中的生物和神灵来掌控世界。他们计划利用这些生物和神灵来发动战争,并掌控整个世界。艾米丽和布鲁斯意识到他们的冒险家朋友已经成为了神秘组织的靶子,他们必须联手阻止这场危机。珍妮是一位神秘的女子,她似乎知道很多关于神秘组织的事情。她
16、告诉冒险家们,神秘组织可以追溯到古埃及时期,他们一直在寻求掌控世界的力量。她告诉他们,只有找到神秘的“神器”,才能阻止神秘组织的阴谋。冒险家们踏上了寻找“神器”的旅程。他们来到了古埃及的城市,找到了一些线索。但他们很快发现,他们不仅要面对神秘组织的攻击,还要面对一些神秘的生物和神灵。他们必须利用自己的智慧和勇气,才能取得胜利。最终,冒险家们找到了“神器”,并成功地阻止了神秘组织的阴谋。但他们也明白了,神秘组织永远不会停止寻找掌控世界的力量,他们必须时刻保持警惕。结尾:本剧本杀以冒险家们成功阻止神秘组织的阴谋为背景,他们在古埃及的神庙和陵墓中冒险,寻找答案和线索。他们不仅面对着危险,还要应对一些
17、神秘的生物和神灵。他们的胜利不仅代表着正义的胜利,也意味着古埃及神话与现代世界之间的神秘联系得到了维护。20ChatGLM的不同用途替代搜索21ChatGLM的不同用途21多任务22ChatGLM的不同用途22合理性23ChatGLM的不同用途23数学题25ChatGLM的不同用途25写代码26多轮27多轮28多轮29多轮30多轮3132333839千亿模型How does this happen?40GPT-3:Size的重要性 流畅的本成 47%的用户无法区分哪些是GPT-3生成的新闻,哪些是真实用户撰写的新闻41为什么千亿(100B)规模1.J Wei,et al.Emergent Ab
18、ilities of Large Language Models.arXiv:2206.0768242为什么千亿(100B)规模1.J Wei,et al.Emergent Abilities of Large Language Models.arXiv:2206.0768243p规模vs.精度p OPT和 BLOOM等精度相对般p 悟道1.75T、M6 10T使成本太p如何持单机推理pNVIDIA vs.国产化p封闭 vs.开源规模难题:没得起训练开源开放的精度千亿中英双语稠密模型,对模型研究有重意义44训练出GPT-3本就临重重挑战p 训练成本昂:训练 1750 亿参数的 GPT-3 使了
19、上万块 V100,机时费是 460万美元,总成本据悉达到 1200 万美元p 投极:歌 PaLM 540B 的团队:前期准备 29,训练过程 11,整个作者列表 68 p 训练过程不稳定:容易出现训练不收敛现象缺少个充分训练的、开放的稠密千亿模型模型训练的单词量总计算量中模型45p 8 个时间,从零开始解决数的难题:p 算法难题:千亿模型的混合精度训练常不稳定,且调试困难p 模型梯度爆炸,Embedding 层的过梯度,Post-LN、Pre-LN 和 Sandwich-LN 的不稳定性,DataLoader 状态种恢复,以及 Softmax 和 Attention 的计算精度选择p 程难题:
20、不同架构集群上效训练千亿模型是极的挑战p 海光集群、A100 集群、神威超算、昇腾 910 集群p 频繁的随机硬件故障、Megatron-DeepSpeed 中的 3D 流线平衡调试、CUDAkernel 效率调优、训练显存紧张、数万进程 TCP 初始化、Element-wise 算融合项启动2021.122022.12022.22022.32022.42022.52022.62022.75673正式训练未完待续多平台适配算法调试框架调试数据准备规模测试GLM-130B:千亿模型之旅n自然语言:生成,还是理解?n自回归模型 GPT:单向注意力,擅长长文本生成n自编码模型 BERT:双向注意力,
21、擅长文本理解n编码器-解码器模型T5:编解码,对话任务算法框架自然语言理解Cond.Gen.Uncond.Gen.自回归自编码编码器-解码器GLM46数据来源:Du and Qian et al.All NLP Tasks are Generation Tasks.ACL22.新型模型:GLM回归填空53并策略:效训练千亿模型p 测试集群配置:p A100 集群(A100):96 台 DGX-A100,每台 2 张 200GB IB 卡p 海光GPU(Hygon):3000 台机器,每台 4 张 DCU 加速卡、4 张 50G IB 卡p 申威处理器(Sunway):8192 个节点,每节点块
尼尔森-2017中国网民体育消费报告-2017.92017互联网体育消费报告(86页).pdf
中国大陆及香港2017财年企业责任报告(30页).pdf
欧盟委员会:2017年全球企业研发投资排行榜报告(118页)(118页).pdf
尼尔森:2017年美国消费者报告(英文版)(34页)(34页).pdf
2017年亚太经合组织CEO调研(中国报告)(22页).pdf
尼尔森-2017年美国体育媒体报告英文版-2018-40页(40页).pdf
MoneyTree™中国清洁能源及技术行业投资研究报告(2017年第一季度)(14页).pdf
2017年亚太经合组织CEO调研中国报告(22页).pdf
企鹅智库:2017微信用户生态研究报告(43页).pdf
新华社研究院:2023人工智能大模型体验报告(62页).pdf
Microsoft Azure:Azure OpenAI案例集-GPT开启智能业务新体验(2023)(19页).pdf
人工智能行业前瞻研究海外专题:海外人工智能产业发展趋势与投资机遇-230601(21页).pdf
信安标委:人工智能安全标准化白皮书(2023版)(29页).pdf
沙利文:2023元宇宙+教育科技白皮书(61页).pdf
电子行业AI+系列专题报告:边缘AI大语言模型的终端部署推动新一轮终端需求-230531(25页).pdf
电通:人工智能时代的营销新趋势(2023)(13页).pdf
中国互联网协会:2023年全球生成式AI产业研究报告(32页).pdf
网易外贸通:AI智能写信极速创建高转化营销邮件(2023)(17页).pdf
人工智能行业海外大模型系列深度报告之三:全球AI“头号玩家”之一META-230530(54页).pdf
哈尔滨工业大学:ChatGPT的过去、现在与未来(2023)(74页).pdf
久谦咨询:ChatGPT-AIGC 重磅上市公司和行业专家访谈合集(2023)(68页).pdf
英特尔:2022-2023新一代智能工业控制器快速搭建指南(59页).pdf
Microsoft Azure:如何借GPT快速建构应用?掌握9大通用规则让开发快人一步(13页).pdf
DataCastle数据城堡&移动云:人工智能与数据科学竞赛白皮书2022(70页).pdf
润和软件:2023人工智能(AI)战略白皮书(59页).pdf
蜜雪冰城招股说明书-连锁茶饮第一股(724页).pdf
麦肯锡:2023中国消费者报告:韧性时代(33页).pdf
线上健身第一股-keep招股说明书(463页).pdf
罗振宇2023“时间的朋友”跨年演讲完整PDF.pdf
QuestMobile:2022新中产人群洞察报告(37页).pdf
小红书:2023年度生活趋势报告(34页).pdf
QuestMobile:2022年中国短视频直播电商发展洞察报告(30页).pdf
工业4.0俱乐部:ChatGPT认知白皮书(151页).pdf
町芒:2022现制茶饮行业研究报告(47页).pdf
哈尔滨工业大学:ChatGPT调研报告(94页).pdf