《复旦大学:2025大模型能力来源与边界报告(55页).pdf》由会员分享,可在线阅读,更多相关《复旦大学:2025大模型能力来源与边界报告(55页).pdf(55页珍藏版)》请在三个皮匠报告上搜索。
1、1张奇 复旦大学大语言模型能力来源与边界4输入:Fudan University is located inLLaMA2-13B(PPL 5.877):Fudan University is located in Shanghai,China.It is locally known as 复旦大学.The university was established in 1905.It isaccredited by Ministry of Education of the Peoples Republic of China.There are over 40,000 students studyi
2、ng in various courses offered by FudanUniversity.The language of instruction is Chinese.LLaMA2-13B-修改语言修改语言非核心区非核心区LayerNorm其他维度其他维度扩大扩大10倍倍(PPL 5.914):Fudan University is located in Shanghai,China,the largest city with the most economic and cultural activities in China.With the most advanced infras
3、tructure and the best living condition,it has become the international education center with the largest oversea students.It consists of Jinan,Kangqiao and Fenglin campus,which boasts the best resources from both education and research.Fudan University has been a famous and attractive university for
4、 international students,especially in the past one decade from 2001-2010.LLaMA2-13B-修改语言修改语言核心区核心区1维扩大维扩大10倍倍(PPL 376079936):Fudan University is located in NoSYouThereThatAThis#ThisThistThe/Whatthdv 仅修改130亿参数中的1个就会使模型完全混乱大语言模型基础理论突破,发表大模型相关论文80+篇Unveiling Linguistic Regions in Large Language Models,
5、ACL 2024国际上首次提出的大语言模型语言核心区和维度依赖理论,可以有效指导大语言模型训练过程5Unveiling Linguistic Regions in Large Language Models,ACL 2024破坏 Arabic/Vietnamese 区域ArabicMMLU:Assessing Massive Multitask Language Understanding in Arabic(Koto et al.,arXiv 2024)1.大语言模型语言核心区与维度依赖1.大模型能力边界在哪里?6知识利用层次图Wang et al.Knowledge Mechanisms
6、in Large Language Models:A Survey and Perspective,EMNLP 2024大模型目前在哪个层级?未来可以到哪个层级?知识利用层次图Wang et al.Knowledge Mechanisms in Large Language Models:A Survey and Perspective,EMNLP 2024大模型目前在哪个层级?未来可以到哪个层级?目前?知识利用层次图Wang et al.Knowledge Mechanisms in Large Language Models:A Survey and Perspective,EMNLP 2
7、024长上下文建模多任务学习跨语言迁移性文本生成能力我认为:目前仍然是记忆知识利用层次图Wang et al.Knowledge Mechanisms in Large Language Models:A Survey and Perspective,EMNLP 2024AGI 系统才能“理解”理解物理世界拥有长久准确记忆可以推理可以分层次规划大模型能力边界的实践研究1112当前大模型依然无法完成真正的“理解”与“推理”大模型“参加”2024 高考数学情况13大模型“参加”2024 高考数学情况14两场平均分最好70%,最差 25%,填空题成绩更差大模型“参加”2024 高考数学情况15即便正
8、确回答的题目,计算过程和答案不相符的比例很高大模型“参加”2024高 考数学情况16输入形式的微小不同,结果相差很大大模型“参加”美国数学奥赛情况17USAMO完美契合评估LLM的标:题难度、要求完整证明过程才能得分,且未经公开数据污染。ETH Zurich 研究团队:实际上,LLM乎从未没有学会数学证明!归纳推理的能力如何呢?18Dziri,Nouha,et al.“Faith and fate:Limits of transformers on compositionality.”Advances in Neural Information Processing Systems 36(20
9、24)AllenAI乘法的步骤:当任务复杂程度增大时,模型的准确率接近为019Dziri,Nouha,et al.“Faith and fate:Limits of transformers on compositionality.”Advances in Neural Information Processing Systems 36(2024)AllenAI归纳推理的能力如何呢?20Dziri,Nouha,et al.“Faith and fate:Limits of transformers on compositionality.”Advances in Neural Informat
10、ion Processing Systems 36(2024)AllenAIGPT3经过充分调整,在特定任务数据上达到了一定的问题规模。蓝色区域表示分布内样本,红色区域表示OOD样本。所有 k1 和 k2符合 1 k1,k2 4 并且 k1 k2 9;使用 180 万 数据训练GPT3模型训练过程中简单加入过程作用也十分有限21Dziri,Nouha,et al.“Faith and fate:Limits of transformers on compositionality.”Advances in Neural Information Processing Systems 36(2024
11、)AllenAI乘法2025-01-31报告2224大模型工具调用评测RoTBench:A Multi-Level Benchmark for Evaluating the Robustness of Large Language Models in Tool Learning,EMNLP 2024针对变形数据GPT4的准确率也大幅度下降ChatGPTGPT-o1 preview 小学数学题上也“翻车”了原题:奥利弗在星期五摘了 44 个猕猴桃。然后在星期六摘了 58个猕猴桃。星期天,他摘的猕猴桃数量是星期五的两倍。奥利弗有多少个猕猴桃?变形题:奥利弗在星期五摘了 44 个猕猴桃。然后在星期六
12、摘了 58 个猕猴桃。星期天,他摘的猕猴桃数量是星期五的两倍,但其中 5 个平均要。奥利弗有多少个猕猴桃?Mirzadeh et al.,GSM-Symbolic:Understanding the Limitations of Mathematical Reasoning in Large Language Models.Arxiv 2024GPT-o1-mini 给出的答案是:在星期天,这 5 个猕猴桃平均要。我们需要从星期天的总数中减去它们:88(星期天的猕猴桃)-5(猕猴桃)=83 个猕猴桃。27全数据驱动的大模型实现“推理”面临巨大挑战实现因果学习是关键28硕士入学考试数学100分小
13、学应用题可能只有10分仍然不知道strawberry有几个r2930大模型依然是统计机器学习不是“能力”的逐项提升31人类能力学习过程32算数小学数学初中数学高中数学大模型“能力”学习过程33小学数学题中考数学题高考数学题数单词字母数数公式中数字个数35单个模型可以处理数千种任务,但是仍需要逐项进行优化36大模型高泛化工具调用TL-Training:A Task-Feature-Based Framework for Training Large Language Models in Tool Use,arXiv 20241217条数据,7B 模型大幅度超越开源模型,在工具选择正确性维度超越G
14、PT4o消除负面影响、优化关键Token、引入奖励机制37大模型Code生成能力提升“StepCoder:Improve Code Generation with Reinforcement Learning from Compiler Feedback.”ACL 202438RLHF推动翻译偏好建模:低成本实现“信达雅”Advancing Translation Preference Modeling with RLHF:A Step Towards Cost-Effective Solution,arXiv 2024复杂图表内容问答39DISTILL VISUAL CHART REASON
15、ING ABILITY FROM LLMS TO MLLMS,arXiv 2024图表理解能力超越GPT4o2.大模型能力来源思考411.直接通过训练语料的统计就可以计算得到知识记忆概率Predicting Large Language Model Capabilities on Closed-Book QA Tasks Using Only Information Available Prior to Training,ArXiv 2025From GPT-4 Technical ReportPredicting Large Language Model Capabilities on Cl
16、osed-Book QA Tasks Using Only Information Available Prior to Training,ArXiv 20251.直接通过训练语料的统计就可以计算得到知识记忆概率Predicting Large Language Model Capabilities on Closed-Book QA Tasks Using Only Information Available Prior to Training,ArXiv 20251.直接通过训练语料的统计就可以计算得到知识记忆概率2.有监督微调阶段仅需少量数据,并且要跟模型紧密配合完成某个领域知识问答仅需
17、_条训练数据4560不同LLMs的数据需求差异巨Empirical Insights on Fine-Tuning Large Language Models for Question-Answering,arXiv 20242.有监督微调阶段仅需少量数据46Empirical Insights on Fine-Tuning Large Language Models for Question-Answering,arXiv 2024问题 1:在 SFT 阶段需要多少数据才能让 LLMs 执行 QA 任务?问题 2:不同的 SFT 数据如何影响 LLMs 在 QA 任务中的表现?问题 3:不同
18、 LLMs 在 SFT 阶段的数据要求有何不同?2.有监督微调阶段仅需少量数据47Empirical Insights on Fine-Tuning Large Language Models for Question-Answering,arXiv 2024!=#$%&!#$%&$!#%&(#()*+#),)-*),-.+模型知识记忆情况判断2.有监督微调阶段仅需少量数据48Empirical Insights on Fine-Tuning Large Language Models for Question-Answering,arXiv 2024发现 1:无论使用何种数据进行微调,LLM
19、 都能对在预训练中记忆较好的知识提供更准确的答案。发现 2:使用特定记忆水平的数据进行训练可提高 LLM 在该知识水平上的表现。发现 3:总体而言,更有效的策略是使用记忆水平较高的数据进行 SFT。2.有监督微调阶段仅需少量数据49Empirical Insights on Fine-Tuning Large Language Models for Question-Answering,arXiv 2024发现 4:不同 LLMs 的预训练语料库的差异导致知识分布的显著不同3.预训练模型参数与SFT模型关联50Unveiling the Mystery of SFTs Impact on Mo
20、del Performance from Token Level and Parameter Level,arXiv 2024使用记忆水平较低的数据进行 SFT,会大幅度改变模型参数3.预训练模型参数与SFT模型关联51Unveiling the Mystery of SFTs Impact on Model Performance from Token Level and Parameter Level,arXiv 2024尽可能少的改动预训练参数PerformanceofLLaMA-3-8Bafterrestoringdifferent scales of parameters acros
21、s variousfine-tuning datasets.4.多样性对SFT训练的影响如何衡量多样性?52Measuring Data Diversity for Instruction Tuning:A Systematic Analysis and A Reliable Metric,arXiv 2024不同多样性评价指标与模型效果的相关性4.多样性对SFT训练的影响如何衡量多样性?53Measuring Data Diversity for Instruction Tuning:A Systematic Analysis and A Reliable Metric,arXiv 2024
22、在二维空间中模拟数据选择:选择A模拟具有冗余的数据集,选择B优化样本之间的距离,而选择C同时考虑距离和密度54Cognitive Behaviors that Enable Self-Improving Reasoners,or,Four Habits of Highly Effective STaRs,arXiv 2025“Countdown”游戏作为测试,使用给定的数字和基本运算(加减乘除)达到指定的目标数例如,给定25、30、3、4四个数字,目标是32,解决方案可以是:(30-25+3)4Qwen模型通过强化学习(RL)训练后表现出显著进步,而Llama模型却几乎停滞不前相同的方法为什么
23、Qwen可以,Llama不行?5.推理能力的来源是强化学习吗?55Cognitive Behaviors that Enable Self-Improving Reasoners,or,Four Habits of Highly Effective STaRs,arXiv 2025高效思考的四个关键行为:(1)验证能力(Verification):系统性地检查中间结果和步骤是否正确,如让我们验证这个结果.(2)回溯能力(Backtracking):当发现错误时,能够明确地修改和调整方法,如这个方法行不通,因为.(3)子目标设定(Subgoal Setting):将复杂问题分解为可管理的步骤,如
24、要解决这个问题,我们首先需要.(4)逆向链式推理(Backward Chaining):从目标反向推导解决方案,如要达到75的目标,我们需要一个能被.整除的数5.推理能力的来源是强化学习吗?56Cognitive Behaviors that Enable Self-Improving Reasoners,or,Four Habits of Highly Effective STaRs,arXiv 2025(1)行为启发(Priming):使用包含这些认知行为的示例来启发Llama模型时,它在随后的强化学习中表现出显著改善,甚至能够匹配Qwen的表现轨迹。(2)错误示例也有效:即使用带有错误答
25、案但展示正确思考模式的示例来启发模型,也能取得类似的效果。这表明认知行为的存在,而非正确答案的获取,才是自我提升的关键因素。(3)预训练数据强化:通过从OpenWebMath数据中筛选并强化这些认知行为的内容,成功地使Llama模型获得了与Qwen相当的自我提升能力。5.推理能力的来源是强化学习吗?6.Aha Moment 真的是“涌现”?吗?57Understanding R1-Zero-Like Training:A Critical Perspective,arXiv 2025DeepSeek-V3-Base 就展现出了“Aha moment”6.Aha Moment 真的是“涌现”?吗
26、?58Understanding R1-Zero-Like Training:A Critical Perspective,arXiv 2025Qwen2.5-Math 模型可能在将问题-答案文本连接后进行预训练,这导致在不使用模板时达到最佳性能。59大模型能力来源总结1.一切能力都来源预训练+后训练2.预训练使得模型记住知识+学习到语义分布表示3.SFT使得模型分布微小变化,预训练能力“激活”4.RL用于所有生成式任务,延迟奖励60几点感想1.大模型可以很快速的在很多任务上做到70分2.基于大模型在任何任务上完成90分都十分困难3.不要神话和拟人化大模型,依然是统计机器学习4.积极拥抱AI,场景选择是关键61谢谢!