当前位置:首页 > 报告详情

文亮-DataFun-模型微调.pdf

上传人: 张** 编号:169106 2024-07-06 30页 10.20MB

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文主要探讨了大型语言模型(Large Language Models, LLS)的数学推理能力及其提升方法。关键数据包括:GPT-3于2020年由OpenAI发布,参数规模达175B;2022年Google发布的BLOOM模型参数达176B;2023年清华发布的ChatGLM模型参数为130B。文章指出,混合指令(Chain of Thought, COT)和前向指令(Prefix-decoder, Pre)在处理数学推理时各有不足,而MAMMOTH方法通过混合指令调优构建了数学通用模型。此外,文章还提到了合成数据(Self-Instruct)的质量过滤方法,以及训练优化策略,如RFT+DPO。最后,文章以GPT-4、Claude3等模型在数学推理能力上的表现为例,展示了这些方法在实际应用中的效果。
"大模型数学推理能力提升策略有哪些?" "混合指令如何提高大语言模型推理能力?" "合成数据如何优化大模型数学推理?"
客服
商务合作
小程序
服务号
折叠