1、李建忠 CSDN高级副总裁,Boolan首席技术专家于2009年发起成立 PM-Summit 全球产品经理大会。在人工智能、产品创新、软件架构等方面拥有丰富的经验和深入的研究。他也是全球机器学习技术大会主席,近年来专注于大语言模型的人工智能方法,提出科技创新的“范式转换立方体 ParaShift Cube”,相关研究和咨询引起了业界的强烈关注。演讲主题:大模型技术演进与应用创新洞察大模型技术演进与应用创新洞察李建忠演进一、Inference Scaling:从训练到推理演进二、Modality Scaling:从文本到多模态演进三、Data Scaling:数据扩展Scaling Law 扩展
2、法则背后的密码智能体:AGI时代的应用形态扩展法则 Scaling LawScaling Law:模型的性能提升随着模型规模三要素的指数增加而线性提高。1、计算量 2、数据集 3、参数量 Scaling 扩展背后的密码 唯一推动过去七十年 AI 进步的力量,就是通用可扩展的算力强化学习之父 Richard Sutton:苦涩的教训 Transformer 的成功,是解耦了算力、数据、参数 三者之间的关系,实现了快速的Scaling。解耦方可通用,通用方可扩展!互联网的伟大也源于其强大的Scaling能力TCP/IP 协议 是对 网络连接 的ScalingWeb/HTML 是对网络应用的Scal
3、ing演进一、Inference Scaling:从训练到推理 GPT o1 基于RL(强化学习)和 Self-play实现了推理的Scaling Law 大模型从预训练阶段的“统计学习”,转变为推理阶段的“探索创新”,完成了从系统1到系统2思考的飞跃。隐式思维链(CoT)使模型学会了中间过程的推理路径(Rationales)。思考的“快”与“慢”直觉系统 无意识的 惯性的 自动化的 快速的 主导95%日常决策与无意识行为系统1:快思考系统2:慢思考 逻辑系统 理性的 推理 规划 缓慢的 高度集中注意力,主导5%决策 事实证明,让一个机器人在一局扑克中思考仅20秒,其性能提升与将模型规模扩大1
4、0万倍并训练10万倍时间相同。Noam Brown演进二、Modality Scaling:从文本到多模态Sora:使用Patch来统一视觉数据(包括时间 空间)的“元表示”GPT:使用token来统一自然语言文本数据的“元表示”智源Emu3:统一文本、图像、视频三种模态数据语言在智能中处于中心地位图像视频语言音频语言是思想的图画“语言的边界,即思想的边界”任何超出语言界限的东西都是不可知的 无稽之谈。人类无法访问自己的心智模型;我们只能访问描绘心智模型的语言模型。语言不仅包含人类知识,也蕴含思维的推理过程。语言 是人类知识的压缩。维特根斯坦演进三、Data Scaling:数据扩展互联网数据
5、合成数据共生数据 结果 静态 显性 过程 动态 隐性训练软件开发过程活动:Google DIDACT 软件工程并非孤立的过程,而是在人类开发者、代码审查者、错误报告者、软件架构师和工具(如编译器、单元测试、代码检查工具和静态分析器)之间进行的对话。DIDACT(Dynamic Integrated Developer ACTivity 动态集成开发者活动)使用软件开发过程作为训练数据来源,而不仅是最终结果(完成代码)。通过让模型接触开发者在工作中看到的上下文,结合他们的响应行为,模型可以学习软件开发的动态性。参考:AI in software engineering at Google:Pro
6、gress and the path ahead https:/research.google/blog/ai-in-software-engineering-at-google-progress-and-the-path-ahead/Google DIDACT动态集成开发者活动AI Agent 智能体 如果说检索模型是知道和了解,生成模型是认知和创造,那么Agent 则是行动和规划。不要追求一步到位的智能!智能不仅仅是认知和创造,更是规划、迭代、协作和使用工具。智能体Age