清华大学:从千亿模型到ChatGPT的一点思考(2023)(67页).pdf

编号:124041 PDF 67页 14.55MB 下载积分:VIP专享
下载报告请您先登录!

清华大学:从千亿模型到ChatGPT的一点思考(2023)(67页).pdf

1、1从千亿模型到ChatGPT的点思考清华学计算机系 知识程实验室(KEG)唐杰2试试我们的系统 ChatGLM-6B开源,10天 10000 stars 当天在 GitHub 的趋势排行第一 过去10天在Huggingface趋势排行第一 开源的训练数据量达到1万亿字符的模型3预训练模型预训练大模型是新一代人工智能应用的基础设施nTransformer应用在OpenAI GPT 1中,Transformer架构是预训练大模型的技术基础2018年GPT模型参数1.1亿大模型从单模态向多模态发展,从文本逐步发展到视觉、虚实迁移控制大模型通用能力强,可完成多场景任务,降低成本,提高效率现有300+应

2、用基于OpenAI GPT-3开发OpenAI与阿里、智源均已推出多模态模型大模型已成为各国人工智能技术新方向,亟需建立以中文为核心的超大规模预训练模型nOpenAI GPT 2.0nBAIDU Ernie 1.0,基于Bert 模型做进一步优化2019年GPT-2模型参数15亿nOpenAI GPT 3,跨时代意义的语言大模型,标志着AI文本生成到下一个阶段2020年GPT-3模型参数1750亿悟道2.0模型参数1.75万亿nDALL-E/Clip:OpenAI大规模图像模型,可基于短文本生成对应图像和进行图像分类nAliceMind:阿里大规模多模态模型,集合语言理解与生成能力2021年D

3、ALL-E 模型参数1.6万亿n出现大规模基于预训练模型的应用nGLM-130B:125T中英文文本6亿图+千万级视频千万级别知识图谱nChatGPT:在问答模型中引入人类反馈强化学习,大幅提升生成结果质量2022年GLM-130B大模型模型参数1300亿GPT-2GPT-3ChatGPTnChatGLM:基于GLM-130B底座,具备问答和对话功能的千亿中英双语模型nGPT-4:多模态大模型,可同时实现图像和文本输入nErnie Bot(文心一言):百度全新一代知识增强大语言模型2023年ChatGPT,GPT-4ChatGLMDALLEGPT-4DALLE4ChatGPT带来的机遇与挑战4

4、ChatGPT的出现表明我们在大模型上的研究还存在代差同时ChatGPT仍然存在认知推理能力不足的问题,常识缺乏成功:逻辑性很强不足:缺乏常识6我们的点点进展6清华、智谱联合在国产超算海洋之光上参与训出悟道1.75万亿模型全机性能单精度混合精度万亿模型647 PFLOPS1.18 EFLOPS十万亿模型525 PFLOPS1.00 EFLOPS百万亿模型198 PFLOPS230 PFLOPS适配国产超算的DeepSpeed兼容库系统算法协同设计,具备全机训练百万亿模型的能力国家超算济南中心智谱清 华国实集团国产大模型清华和国家超算济南中心、智谱联合研发了GLM-130B普惠模型训练成本由GP

5、T-3的460万美元降至600万元Attention层的Softmax采用单精度,1%的损失极大稳定了训练7千亿GLM-130B基础架构训练方式量化加速跨平台能力GPT3-175BGPT自监督预训练NVIDIA BLOOM-176BGPT自监督预训练INT8MegatronNVIDIAGLM-130BGLM自监督预训练和多任务预训练INT8/INT4FasterTransformerNVIDIA、海光 DCU、昇腾910 和申威对比优势高精度:Big-bench-lite:+5.2%LAMBADA:+2.3%CLUE:+24.3%FewCLUE:+12.8%普惠推理:节省75%内存可单台309

6、0(4)或单台2080Ti(8)进行无损推理高速推理:比Pytorch提速7-8.4倍Megatron提速2.5倍跨平台:支持更多不同的大规模语言模型的适配英文:在英文:在MMLU、LAMBADA、BIG-bench-lite等超过等超过GPT-3,OPT,PaLM自自2022年年8月发布以来,月发布以来,收到收到53个国家个国家369个研究机构个研究机构的使用需求的使用需求 Google Microsoft Meta AI2 Stanford MIT UC Berkely CMU Harvard Princeton Cambridge 华为 百度 阿里巴巴 腾讯 头条 滴滴 建设银行 智源

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(清华大学:从千亿模型到ChatGPT的一点思考(2023)(67页).pdf)为本站 (杨柳依依) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
客服
商务合作
小程序
服务号
折叠