《面向领域的大模型深度思维能力.pdf》由会员分享,可在线阅读,更多相关《面向领域的大模型深度思维能力.pdf(55页珍藏版)》请在三个皮匠报告上搜索。
1、面向领域的大模型深度思维能力梁家卿复旦大学大数据学院复旦大学知识工场实验室1OutlineOutline2大模型深度思维的现状与挑战大模型深度思维的现状与挑战3大模型智能的三重维度大模型智能的三重维度4 知性:知识获取与表达能力 感性:想象力、创造力、共情能力 理性:思维、推理与逻辑能力 当前大模型强于知性,弱于感性与理性 大模型擅长与人聊天,但是不擅长稳定完成指定任务知性理性感性GPT4之前系列GPT4.5Deep thinking强思维、强逻辑 事实正确、逻辑正确的AI想象力、创造力有温度、与人共情、引人共鸣的AI通用智能的进步:从知性到理性的转变通用智能的进步:从知性到理性的转变5 知性
2、:预训练阶段,从无注释文本中学习知识 理性:后训练阶段,学习利用知识解决问题 理性是用知识的能力 需要通过反思、实践和优质指令来培养大模型与专家的思维差距大模型与专家的思维差距 行业专家的专业性水平,仍是大模型难以企及的;专业性的本质是强思维能力,但强思维能力的习得和运用都需要实践6o o1/1/r r1 1:推理能力的里程碑:推理能力的里程碑 在回答用户问题时,o1会陷入长时间思考的过程 生成中逐步思考,并且验证、反思,以实现复杂推理能力 r1:在生成特别长的cot之后,才回答问题7o1的推理过程中显示出了验证、反思的能力 o1推理链中显示出了很长的思考过程机遇:解锁大模型领域思维潜能机遇:
3、解锁大模型领域思维潜能 R1-zero式的Goal-Oriented RL是有效解锁大模型领域思维潜能的机遇 RLHF早已有之,为何RL重新爆火?8简单的结果Reward进行RL要求模型先进行长篇思考的CoTr1/o1长思考推理模型回看:回看:r1-zeror1-zero训练的基本流程训练的基本流程9从问题集中采样一个问题模型对问题生成N个长CoT及回答使用结果判断计算N个回答的Reward基于这N个回答和Reward,在一定的限制下更新模型参数表面依赖:训练问题集 能对回答进行评估的打分器隐藏依赖:模型需要有能生成较大差异的回答的多样性 模型需要有一定基础能力,能在N个回答中获得正确答案 专
4、业领域应用的三大核心挑战专业领域应用的三大核心挑战10领域应用的三大核心挑战领域应用的三大核心挑战11复杂指令执行的不稳定性 多约束条件下需要精准执行专家思维模式的缺失 缺乏行业逻辑与专家经验工具调用的被动性 工具协作具有局限性挑战挑战1 1:复杂指令的精准执行:复杂指令的精准执行 指令遵循是大模型的一项重要能力 实际场景下的人类指令往往是复杂的,通常可以表征为多种不同的约束。对格式的约束:用引号包括特定字段;输出“JSON”格式等 对语义的约束:输出不要包含特定词;输出包含你的思考过程等12OpenAI专门开发的严格Json格式输出,是Agent开发的必需品现有思维模型的指令遵循能力较差现有
5、思维模型的指令遵循能力较差13Deepseek-R1因为Instruction Following能力的欠缺,经常会给出错误回复而终止游戏LLM Chess:一个用来测试大语言模型在下棋(chess)任务中的表现的工具1.Wins(胜率):模型在国际象棋对弈中获胜的概率。2.Draws(平局率):模型与随机机器人对弈后以平局结束的概率。3.Mistakes(错误率):每1000步中,模型因错误回复(erroneous replies)而退出游戏的次数。4.Tokens/move(每步消耗的tokens):模型每一步推理所需的计算资源,tokens是衡量模型复杂度和成本的重要指标。https:/
6、dev.to/maximsaplin/deepseek-r1-vs-openai-o1-1ijm蒸馏模型的指令遵循能力仍然不足蒸馏模型的指令遵循能力仍然不足14 蒸馏版的思维模型指令遵循能力较差 LLaMA3.1-8B-Deepseek-Distilled的指令遵循能力劣于LLaMA3.1-8B-Instrutcion 对于复杂指令遵循任务,LLaMA3.1-8B-Deepseek-Distilled的思维链和指令遵循无关Instruction:Write a 2 paragraph critique of the following sentence in all capital lette