《清华大学:从千亿模型到ChatGPT的一点思考(2023)(67页).pdf》由会员分享,可在线阅读,更多相关《清华大学:从千亿模型到ChatGPT的一点思考(2023)(67页).pdf(67页珍藏版)》请在三个皮匠报告上搜索。
1、1从千亿模型到ChatGPT的点思考清华学计算机系 知识程实验室(KEG)唐杰2试试我们的系统 ChatGLM-6B开源,10天 10000 stars 当天在 GitHub 的趋势排行第一 过去10天在Huggingface趋势排行第一 开源的训练数据量达到1万亿字符的模型3预训练模型预训练大模型是新一代人工智能应用的基础设施nTransformer应用在OpenAI GPT 1中,Transformer架构是预训练大模型的技术基础2018年GPT模型参数1.1亿大模型从单模态向多模态发展,从文本逐步发展到视觉、虚实迁移控制大模型通用能力强,可完成多场景任务,降低成本,提高效率现有300+应
2、用基于OpenAI GPT-3开发OpenAI与阿里、智源均已推出多模态模型大模型已成为各国人工智能技术新方向,亟需建立以中文为核心的超大规模预训练模型nOpenAI GPT 2.0nBAIDU Ernie 1.0,基于Bert 模型做进一步优化2019年GPT-2模型参数15亿nOpenAI GPT 3,跨时代意义的语言大模型,标志着AI文本生成到下一个阶段2020年GPT-3模型参数1750亿悟道2.0模型参数1.75万亿nDALL-E/Clip:OpenAI大规模图像模型,可基于短文本生成对应图像和进行图像分类nAliceMind:阿里大规模多模态模型,集合语言理解与生成能力2021年D
3、ALL-E 模型参数1.6万亿n出现大规模基于预训练模型的应用nGLM-130B:125T中英文文本6亿图+千万级视频千万级别知识图谱nChatGPT:在问答模型中引入人类反馈强化学习,大幅提升生成结果质量2022年GLM-130B大模型模型参数1300亿GPT-2GPT-3ChatGPTnChatGLM:基于GLM-130B底座,具备问答和对话功能的千亿中英双语模型nGPT-4:多模态大模型,可同时实现图像和文本输入nErnie Bot(文心一言):百度全新一代知识增强大语言模型2023年ChatGPT,GPT-4ChatGLMDALLEGPT-4DALLE4ChatGPT带来的机遇与挑战4
4、ChatGPT的出现表明我们在大模型上的研究还存在代差同时ChatGPT仍然存在认知推理能力不足的问题,常识缺乏成功:逻辑性很强不足:缺乏常识6我们的点点进展6清华、智谱联合在国产超算海洋之光上参与训出悟道1.75万亿模型全机性能单精度混合精度万亿模型647 PFLOPS1.18 EFLOPS十万亿模型525 PFLOPS1.00 EFLOPS百万亿模型198 PFLOPS230 PFLOPS适配国产超算的DeepSpeed兼容库系统算法协同设计,具备全机训练百万亿模型的能力国家超算济南中心智谱清 华国实集团国产大模型清华和国家超算济南中心、智谱联合研发了GLM-130B普惠模型训练成本由GP
5、T-3的460万美元降至600万元Attention层的Softmax采用单精度,1%的损失极大稳定了训练7千亿GLM-130B基础架构训练方式量化加速跨平台能力GPT3-175BGPT自监督预训练NVIDIA BLOOM-176BGPT自监督预训练INT8MegatronNVIDIAGLM-130BGLM自监督预训练和多任务预训练INT8/INT4FasterTransformerNVIDIA、海光 DCU、昇腾910 和申威对比优势高精度:Big-bench-lite:+5.2%LAMBADA:+2.3%CLUE:+24.3%FewCLUE:+12.8%普惠推理:节省75%内存可单台309
6、0(4)或单台2080Ti(8)进行无损推理高速推理:比Pytorch提速7-8.4倍Megatron提速2.5倍跨平台:支持更多不同的大规模语言模型的适配英文:在英文:在MMLU、LAMBADA、BIG-bench-lite等超过等超过GPT-3,OPT,PaLM自自2022年年8月发布以来,月发布以来,收到收到53个国家个国家369个研究机构个研究机构的使用需求的使用需求 Google Microsoft Meta AI2 Stanford MIT UC Berkely CMU Harvard Princeton Cambridge 华为 百度 阿里巴巴 腾讯 头条 滴滴 建设银行 智源