《文亮-DataFun-模型微调.pdf》由会员分享,可在线阅读,更多相关《文亮-DataFun-模型微调.pdf(30页珍藏版)》请在三个皮匠报告上搜索。
1、DataFunConDataFunCon#20242024提升大模型数学推理能力提升大模型数学推理能力演讲人:文亮-奇虎360-资深算法专家ContentsContents目录目录大语言模型混合指令合成数据训练优化01 01 大语言模型大语言模型大语言模型-结构总览模型模型时间时间公司公司范式范式规模规模GPT32020OpenAICausaldecoder175BPaLM2022GoogleCausaldecoder540BChinchilla2022DeepMindCausaldecoder70BBloom2022HuggingfaceCausaldecoder176BChatGLM202
2、3清华Prefix decoder130BLlama2023MetaCausaldecoder65BBaichuan2023百川Causaldecoder53BQwen2023阿里巴巴Causaldecoder72B大语言模型-结构总览参数参数说明说明GPT2GPT2vocabs词表大小50000layersTransformer层数24heads多头注意力数量16d_modelTransformer层输出大小或隐层大小2048d_attnAttention层输出大小,d_attn=d_model/heads128d_ffnFFN中间层输出大小,d_ffn=4*d_model8192模型层(忽
3、略模型层(忽略PEPE和和LNLN层)层)参数计算参数计算GPT2-1.3BGPT2-1.3BEmbeddingvocabs*d_model102,400,000Attention QKV3*d_model*heads*d_attn.*layers301,989,888Attention Projectheads*d_attn.*d_model*layers100,663,296FFN2*d_model*d_ffn*layers805,306,368Output与word embedding层共享时无新增参数-Totalvocabs*d_model+12*d_model*d_model*lay
4、ers1,310,359,552大语言模型-结构总览大语言模型-构建流程OpenAI 大模型构建流程Llama2-Chat 训练流程大语言模型-大模型的“三步走”大语言模型-数学推理优化02 02 混合指令混合指令混合指令Chain of thought prompting elicits reasoning in large language modelsProgram of thoughts prompting:Disentangling computation from reasoning for numerical reasoning tasks.混合指令 COT计算精度上存在困难,难
5、以处理复杂数学或算法推理(例如求解二次方程根和计算矩阵特征值)POT在处理更抽象的推理场景时显得不足,比如常识推理、形式逻辑和抽象代数VSMAMMOTH:BUILDING MATH GENERALIST MODELSTHROUGH HYBRID INSTRUCTION TUNINGOpenMathInstruct-1:A 1.8 Million Math Instruction Tuning Dataset混合指令0.510.650.7100.10.20.30.40.50.60.70.8COTPOTCOT+POT准确率线性(准确率)03 03 合成数据合成数据合成数据合成数据-Self Ins
6、tructSELF-INSTRUCT:Aligning Language Models with Self-Generated Instructions合成数据-质量过滤Reward Model打分理想分布GPT-4o打分分布Reward Model对相同问题打分分布9289.588.187.186.885.985.184.78082848688909294Nemotron-4-340BCohere May 2024Gemini 1.5 Pro-0514 Cohere March 2024oursGPT-4-012