报告预览

文亮-DataFun-模型微调.pdf

编号：169106

PDF 30页 10.20MB 下载积分：VIP专享

下载报告请您先登录！

文亮-DataFun-模型微调.pdf

1、DataFunConDataFunCon#20242024提升大模型数学推理能力提升大模型数学推理能力演讲人：文亮-奇虎360-资深算法专家ContentsContents目录目录大语言模型混合指令合成数据训练优化01 01 大语言模型大语言模型大语言模型-结构总览模型模型时间时间公司公司范式范式规模规模GPT32020OpenAICausaldecoder175BPaLM2022GoogleCausaldecoder540BChinchilla2022DeepMindCausaldecoder70BBloom2022HuggingfaceCausaldecoder176BChatGLM202

2、3清华Prefix decoder130BLlama2023MetaCausaldecoder65BBaichuan2023百川Causaldecoder53BQwen2023阿里巴巴Causaldecoder72B大语言模型-结构总览参数参数说明说明GPT2GPT2vocabs词表大小50000layersTransformer层数24heads多头注意力数量16d_modelTransformer层输出大小或隐层大小2048d_attnAttention层输出大小，d_attn=d_model/heads128d_ffnFFN中间层输出大小，d_ffn=4*d_model8192模型层（忽

3、略模型层（忽略PEPE和和LNLN层）层）参数计算参数计算GPT2-1.3BGPT2-1.3BEmbeddingvocabs*d_model102,400,000Attention QKV3*d_model*heads*d_attn.*layers301,989,888Attention Projectheads*d_attn.*d_model*layers100,663,296FFN2*d_model*d_ffn*layers805,306,368Output与word embedding层共享时无新增参数-Totalvocabs*d_model+12*d_model*d_model*lay

4、ers1,310,359,552大语言模型-结构总览大语言模型-构建流程OpenAI 大模型构建流程Llama2-Chat 训练流程大语言模型-大模型的“三步走”大语言模型-数学推理优化02 02 混合指令混合指令混合指令Chain of thought prompting elicits reasoning in large language modelsProgram of thoughts prompting:Disentangling computation from reasoning for numerical reasoning tasks.混合指令 COT计算精度上存在困难，难

5、以处理复杂数学或算法推理（例如求解二次方程根和计算矩阵特征值）POT在处理更抽象的推理场景时显得不足，比如常识推理、形式逻辑和抽象代数VSMAMMOTH:BUILDING MATH GENERALIST MODELSTHROUGH HYBRID INSTRUCTION TUNINGOpenMathInstruct-1:A 1.8 Million Math Instruction Tuning Dataset混合指令0.510.650.7100.10.20.30.40.50.60.70.8COTPOTCOT+POT准确率线性(准确率)03 03 合成数据合成数据合成数据合成数据-Self Ins

6、tructSELF-INSTRUCT:Aligning Language Models with Self-Generated Instructions合成数据-质量过滤Reward Model打分理想分布GPT-4o打分分布Reward Model对相同问题打分分布9289.588.187.186.885.985.184.78082848688909294Nemotron-4-340BCohere May 2024Gemini 1.5 Pro-0514 Cohere March 2024oursGPT-4-012

友情提示

1、下载报告失败解决办法
2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。
3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

本文（文亮-DataFun-模型微调.pdf）为本站（张5G）主动上传，三个皮匠报告文库仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知三个皮匠报告文库（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。