《复旦大学:2024如何提升大模型任务能力报告(39页).pdf》由会员分享,可在线阅读,更多相关《复旦大学:2024如何提升大模型任务能力报告(39页).pdf(39页珍藏版)》请在三个皮匠报告上搜索。
1、1张奇复旦大学如何提升大模型任务能力2ChatGPT实现过程原始数据数千亿单词:图书、百科、网页等语言模型预训练基础模型预训练阶段数据集合算法模型资源需求1000+GPU月级别训练时间GPT 3.0、LLaMa、PaLM标注用户指令百万用户指令和对应的答案语言模型预训练SFT 模型1-100GPU天级别训练时间MOSS、ChatGLM6b、Vicuna-13B等指令微调标注对比对百万标注对比对二分类模型RM 模型1-100GPU天级别训练时间奖励函数用户指令十万用户指令强化学习方法RL 模型1-100GPU天级别训练时间ChatGPT、Claude强化学习3大模型的能力是如何获取的原始数据数千
2、亿单词:图书、百科、网页等语言模型预训练基础模型预训练阶段标注用户指令百万用户指令和对应的答案语言模型预训练SFT 模型指令微调标注对比对百万标注对比对二分类模型RM 模型奖励函数用户指令十万用户指令强化学习方法RL 模型强化学习知识压缩和表示学习能力注入生成式任务能力提升4所有的能力都需要精心设计A comprehensive capability analysis of gpt-3 and gpt-3.5 series models,Arxiv 2023很多任务的能力在一开始并不具备,而是不断叠加上去的5所有的能力都需要精心设计A comprehensive capability anal
3、ysis of gpt-3 and gpt-3.5 series models,Arxiv 2023任务大量叠加会造成一些任务能力下降6预训练阶段如何储存知识7人类知识如何定义Physics of Language Models:Part 3.3,Knowledge Capacity Scaling Laws,Meta FAIR Labs,arXiv 2024人类知识:(name,attribute,value)三元组(非洲,最大国家,苏丹)(中国,首都,北京)Bit Complexity:这些元组信息有效且无损地表示所需要的最小二进制位数例如,如果一个拥有1亿参数的模型存储了2.2亿比特的知
4、识,则其容量比例为2.2比特/参数8GPT2 模型的知识 Scaling LawPhysics of Language Models:Part 3.3,Knowledge Capacity Scaling Laws,Meta FAIR Labs,arXiv 2024GPT2 使用标准AdamW优化器,稳定的保持2bit/参数无论如何设置参数包括:不同大小、深度、宽度的模型,各种数据量、类型以及超参数充分训练的7B模型可以保存14B bits知识Wikipedia 包含4.5B words所有英文图书包含 16B words知识记忆不是word-by-word记忆,而是能够通过问答获取答案9需要
5、足够多的“曝光”才能完成记忆Physics of Language Models:Part 3.3,Knowledge Capacity Scaling Laws,Meta FAIR Labs,arXiv 2024达到2bit/参数 对于每个知识要达到 1000 次曝光如果只有100次曝光的话,会减少到1bit/参数图标上面数字是l,h参数选择“垃圾”数据对知识获取有显著影响Physics of Language Models:Part 3.3,Knowledge Capacity Scaling Laws,Meta FAIR Labs,arXiv 2024Wikipedia vs.Commo
6、n Crawl10预训练阶段结论1.同一个知识点必须用不同的方式大量重复,模型才能学习到2.具有高知识密度的高质量的训练数据至关重要3.经过足够的训练模型可以达到2bit/参数的知识存储能力4.如果预训练阶段模型没能学到知识,怎么微调都没有用11Physics of Language Models:Part 3.1,Knowledge Storage and Extraction,Meta FAIR Labs,arXiv 2023Physics of Language Models:Part 3.2,Knowledge manipulation,Meta FAIR Labs,arXiv 202