1、MindSporeMindSpore大模型实践大模型实践徐徐传飞传飞 华为华为MindSporeMindSpore技术技术总监总监个人简介个人简介2013年,东北大学博士毕业2013-2015年,香港理工大学博士后研究方向聚焦于NLP、数据挖掘等。发表论文20余篇,其中CCF A类 5篇,发表专利10余篇2016年加入华为,曾负责华为终端机器翻译、华为商城客服系统、华为终端搜索、小艺(语音助手)对话等项目落地,现负责MindSpore模型训练职称:广东省人工智能专业 高级工程师(副高)目录目录1.大大模型技术趋势分析模型技术趋势分析2.MindSpore大模型关键大模型关键技术技术3.Mind
2、Spore大大模型模型训练实践案例训练实践案例4.MindSpore大模型套件大模型套件实践实践生成式生成式大大模型成为模型成为AIAI领域新的突破领域新的突破Pan-Gu(200B)HyperCLOVA(204B)Jurassic-1 Jumbo(204B)FLAN(137B)June 2020May 2021Megatron Turing-NLG(137B)Yuan 1.0(246B)Sep 2021Gopher(280B)Ernie 3.0 Titan(260B)LaMDA(280B)Jan 2022GPT-j(6B)GPT-NeoX(20B)Aug 2021PaLM(540B)OPT(
3、175B)BLOOM(176B)GLM(130B)May 2022Aug 2022Chinchilla(70B)GPT-3(175B)Nov 2022ChatGPTMar 2023GPT-4AIAI产业落地趋势:大模型模式有更低的交付成本和产业落地趋势:大模型模式有更低的交付成本和更快速更快速支撑支撑业务上线的能力业务上线的能力参考传统模式传统模式大模型模式大模型模式应用架构&模型设计特性/任务扩展one-by-one特性开发初期特性快速探索&大模型构建&围绕大模型的基础架构和支撑平台随着任务积累,模型的基础能力也会得到提升研发能力限制作为智能核心,大模型的训练、调优、对齐,以及充分发挥其能力
4、的架构支持,需要前期更充足的投入大模型自身的泛化能力,使得每个任务的扩展都能成为支持未来任务的积累大模型随着能力上升,可支撑业务的快速创新和迭代技术趋势:大技术趋势:大数据数据+大参数、人工反馈大参数、人工反馈+强化学习显著提升强化学习显著提升AIAI性能,大模型成性能,大模型成为为AIAI产业新范式产业新范式核心核心训练训练流程流程ChatGPTChatGPT效果提升依赖强化学习范式,效果提升依赖强化学习范式,GPT-4GPT-4效果提升依赖大数据效果提升依赖大数据+大参数大参数互联网爬取海量数据无标注数据自监督学习大规模分布式训练基于人工标注数据增量训练GPT-3代码数据100人标注1年高
5、质量数据)ChatGPTGPT-3评价模型评价模型RM基于人工打分数据训练ChatGPT生成结果(如代码)RM对生成结果(代码)准确性评价好坏(强化学习纠偏)评价数据指导模型迭代GPT-22019年2月参数:15亿数据:40 GB催熟算法架构GPT-32020年6月参数:1750亿数据:45 TB参数量提升 100倍倍数据量提升 1000倍倍效果:效果:单一模型统一所有NLP任务问题:问题:会生成错误信息,结果不可控ChatGPT2022年12月参数:1750亿数据:45T+X 人工标注数据人工标注数据&强化学习强化学习Alignment对齐、逻辑推理、指令泛化生成创造,已接近人的水平1616
6、个月个月3030个月个月4 4个月个月GPT-4(vision)2023年3月参数:1万亿数据:50T+多模态输入多模态输入&模型性能预测模型性能预测知识存储容量扩大5倍,多模态输入获取更多世界知识自然语言文本数视觉数据(图文)GPT-4更大参数提升涌现能力更多数据提示世界知识更加智能ChatGPTChatGPT预训练预训练数据集来源:精英化、美国化、英文化数据集来源:精英化、美国化、英文化数据来源Tokens数量 加权后占比300B时的权重Common Crawl410 B62%0.44WebText219 B19%2.92.9Books112 B8%1.9Books255 B 8%0.43