清华大学：从千亿模型到ChatGPT的一点思考（2023）（67页）.pdf

上传人：杨***

编号：124041

2023-04-27

PDF 67页 14.55MB

《清华大学：从千亿模型到ChatGPT的一点思考（2023）（67页）.pdf》由会员分享，可在线阅读，更多相关《清华大学：从千亿模型到ChatGPT的一点思考（2023）（67页）.pdf（67页珍藏版）》请在三个皮匠报告上搜索。

1、1从千亿模型到ChatGPT的点思考清华学计算机系知识程实验室（KEG）唐杰2试试我们的系统 ChatGLM-6B开源，10天 10000 stars 当天在 GitHub 的趋势排行第一过去10天在Huggingface趋势排行第一开源的训练数据量达到1万亿字符的模型3预训练模型预训练大模型是新一代人工智能应用的基础设施nTransformer应用在OpenAI GPT 1中，Transformer架构是预训练大模型的技术基础2018年GPT模型参数1.1亿大模型从单模态向多模态发展，从文本逐步发展到视觉、虚实迁移控制大模型通用能力强，可完成多场景任务，降低成本，提高效率现有300+应

2、用基于OpenAI GPT-3开发OpenAI与阿里、智源均已推出多模态模型大模型已成为各国人工智能技术新方向，亟需建立以中文为核心的超大规模预训练模型nOpenAI GPT 2.0nBAIDU Ernie 1.0，基于Bert 模型做进一步优化2019年GPT-2模型参数15亿nOpenAI GPT 3，跨时代意义的语言大模型，标志着AI文本生成到下一个阶段2020年GPT-3模型参数1750亿悟道2.0模型参数1.75万亿nDALL-E/Clip：OpenAI大规模图像模型,可基于短文本生成对应图像和进行图像分类nAliceMind：阿里大规模多模态模型，集合语言理解与生成能力2021年D

3、ALL-E 模型参数1.6万亿n出现大规模基于预训练模型的应用nGLM-130B:125T中英文文本6亿图+千万级视频千万级别知识图谱nChatGPT:在问答模型中引入人类反馈强化学习，大幅提升生成结果质量2022年GLM-130B大模型模型参数1300亿GPT-2GPT-3ChatGPTnChatGLM:基于GLM-130B底座，具备问答和对话功能的千亿中英双语模型nGPT-4:多模态大模型，可同时实现图像和文本输入nErnie Bot（文心一言）：百度全新一代知识增强大语言模型2023年ChatGPT,GPT-4ChatGLMDALLEGPT-4DALLE4ChatGPT带来的机遇与挑战4

4、ChatGPT的出现表明我们在大模型上的研究还存在代差同时ChatGPT仍然存在认知推理能力不足的问题，常识缺乏成功：逻辑性很强不足：缺乏常识6我们的点点进展6清华、智谱联合在国产超算海洋之光上参与训出悟道1.75万亿模型全机性能单精度混合精度万亿模型647 PFLOPS1.18 EFLOPS十万亿模型525 PFLOPS1.00 EFLOPS百万亿模型198 PFLOPS230 PFLOPS适配国产超算的DeepSpeed兼容库系统算法协同设计，具备全机训练百万亿模型的能力国家超算济南中心智谱清华国实集团国产大模型清华和国家超算济南中心、智谱联合研发了GLM-130B普惠模型训练成本由GP

5、T-3的460万美元降至600万元Attention层的Softmax采用单精度，1%的损失极大稳定了训练7千亿GLM-130B基础架构训练方式量化加速跨平台能力GPT3-175BGPT自监督预训练NVIDIA BLOOM-176BGPT自监督预训练INT8MegatronNVIDIAGLM-130BGLM自监督预训练和多任务预训练INT8/INT4FasterTransformerNVIDIA、海光 DCU、昇腾910 和申威对比优势高精度：Big-bench-lite:+5.2%LAMBADA：+2.3%CLUE:+24.3%FewCLUE:+12.8%普惠推理：节省75%内存可单台309

6、0(4)或单台2080Ti(8)进行无损推理高速推理：比Pytorch提速7-8.4倍Megatron提速2.5倍跨平台：支持更多不同的大规模语言模型的适配英文：在英文：在MMLU、LAMBADA、BIG-bench-lite等超过等超过GPT-3,OPT,PaLM自自2022年年8月发布以来，月发布以来，收到收到53个国家个国家369个研究机构个研究机构的使用需求的使用需求 Google Microsoft Meta AI2 Stanford MIT UC Berkely CMU Harvard Princeton Cambridge 华为百度阿里巴巴腾讯头条滴滴建设银行智源

清华大学：从千亿模型到ChatGPT的一点思考（2023）（67页）.pdf

报告标签

相关报告