《梁家卿-面向领域的大模型思维能力.pdf》由会员分享,可在线阅读,更多相关《梁家卿-面向领域的大模型思维能力.pdf(64页珍藏版)》请在三个皮匠报告上搜索。
1、ML-SummitML-Summitwww.cpp-www.ml-summit.orgwww.gosim.orgwww.pm-summit.orgML-SummitML-SummitML-SummitML-SummitML-SummitML-Summit梁梁家家卿卿 复复旦旦大大学学大大数数据据学学院院青青年年副副研研究究员员复旦大学大数据学院青年副研究员,专注于知识图谱与大模型的认知智能研究。在TKDE、AAAI等顶级会议和期刊发表论文50余篇,研发的知识图谱与大模型应用平台累计被调用超17亿次,拥有近20项专利。曾获语言与智能技术竞赛信息抽取比赛第一名。主持研发的中文大模型 CuteGPT
2、 在多家公司落地应用。曾获ACM-ICPC区域赛金牌、TopCoder Open全球前150名、吴文俊人工智能奖科技进步奖等多项荣誉。演演讲讲主主题题:面面向向领领域域的的大大模模型型思思维维能能力力ML-SummitML-Summit2 20 02 25 5 全球机器学习技术大会面面向向领领域域的的大大模模型型深深度度思思维维能能力力梁家卿复旦大学知识工场实验室ML-SummitML-Summit目目录录ML-SummitML-SummitML-SummitML-Summit知知性性:知识获取与表达能力感感性性:想象力、创造力、共情能力理理性性:思维、推理与逻辑能力 当前大模型强于知性,弱于
3、感性与理性 大模型擅长与人聊天,但是不擅长稳定完成指定任务大模型智能的三重维度知性理性感性GPT4之前系列GPT4.5Deep thinking强思维、强逻辑 事实正确、逻辑正确的AI想象力、创造力有温度、与人共情、引人共鸣的AIML-SummitML-Summit通用智能的进步:从知性到理性的转变知知性性:预训练阶段,从无注释文本中学习知识理理性性:后训练阶段,学习利用知识解决问题 理性是用知识的能力 需要通过反思、实践和优质指令来培养ML-SummitML-Summit大模型与专家的思维差距行业专家的专业性水平,仍是大模型难以企及的;专业性的本质是强思维能力ML-SummitML-Summ
4、ito1/r1:推理能力的里程碑在回答用户问题时,o1会陷入长时间思考的过程 生成中逐逐步步思思考考,并且验验证证、反反思思,以实现复杂推理能力r1:在生成特别长的cot之后,才回答问题O1的推理过程中显示出了验证、反思的能力 O1推理链中显示出了很长的思考过程ML-SummitML-Summit机遇:解锁大模型领域思维潜能R1-zero式的Goal-Oriented RL是有效解锁大模型领域思维潜能的机遇RLHF早已有之,为何RL重新爆火?简单的结果Reward进行RL要求模型先进行长篇思考的CoTr1/o1长思考推理模型ML-SummitML-Summit回看:r1-zero训练的基本流程
5、从问题集中采样一个问题模型对问题生成N个长CoT及回答使用结果判断计算N个回答的Reward基于这N个回答和Reward,在一定的限制下更新模型参数表表面面依依赖赖:训练问题集 能对回答进行评估的打分器隐隐藏藏依依赖赖:模型需要有能生成较大差异的回答的多样性 模型需要有一定基础能力,能在N个回答中获得正确答案 ML-SummitML-SummitML-SummitML-Summit领域应用的三大核心挑战复复杂杂指指令令执执行行的的不不稳稳定定性性 多约束条件下需要精准执行专专家家思思维维模模式式的的缺缺失失 缺乏行业逻辑与专家经验工工具具调调用用的的被被动动性性 工具协作具有局限性ML-Sum
6、mitML-Summit挑战1:复杂指令的精准执行 指令遵循是大模型的一项重要能力实际场景下的人类指令往往是复杂的,通常可以表征为多种不同的约束。对格式的约束:用引号包括特定字段;输出“JSON”格式等 对语义的约束:输出不要包含特定词;输出包含你的思考过程等OpenAI专门开发的严格Json格式输出,是Agent开发的必需品ML-SummitML-Summit现有思维模型的指令遵循能力较差Deepseek-R1因为Instruction Following能力的欠缺,经常会给出错误回复而终止游戏https:/dev.to/maximsaplin/deepseek-r1-vs-openai-o