《复旦大学:2024大语言模型的能力边界与发展思考报告(101页).pdf》由会员分享,可在线阅读,更多相关《复旦大学:2024大语言模型的能力边界与发展思考报告(101页).pdf(101页珍藏版)》请在三个皮匠报告上搜索。
1、1张奇 复旦大学大语言模型的能力边界与发展思考ChatGPT2023年-大模型报税、写诗、写代码,“无所不能”ChatGPT2023年-大模型“无所不能”ChatGPT2023年-大模型“无所不能”2023 年大家拿着锤子到处找钉子ChatGPT2024年-大模型落地总是“差一口气”ChatGPT2024年-大模型落地总是“差一口气”ChatGPT2024年-大模型落地总是“差一口气”Physics of Language Models:Part 3.2,Knowledge Manipulation,Allen-Zhu Z.,Li Y.,Arixv 2023 Meat AI/FAIR Labs
2、语言模型无法进行逆向知识搜索,除非知识以逆序出现在预训练数据中ChatGPTGPT-o1 preview 号称物理问答达到“博士:水平ChatGPTGPT-o1 preview 似乎也不能很好的解决初中数学问题 在 GSM8K 和 MATH 数据集问题的基础上,加了些“陷阱”,构造了 MathTrap 数据集。改编后的题很多时候没有定义明确的答案或者解,只有能够同时理解原题和“陷阱”所涉及知识,才能找出其中的盾点,发现“陷阱”所在。MathTrap_Public上,GPT-o1-preview的回答准确率仅为24.3%MathTrap_Private 上,GPT-o1-preview API
3、的测试准确率为 38.0%,相 GPT-4 API 的 36.0%,乎没有提升10为什么?11从飞机发展史看 AI 发展的核心问题ChatGPTChatGPT为什么这么强?基础理论对于技术发展至关重要1903年12月17日,世界上第一架载人动力飞机首飞ChatGPTChatGPT为什么这么强?同时期各种脑洞大开的“飞行器”ChatGPTChatGPT为什么这么强?莱特兄弟创造“飞行者一号”的历程1890年代前期莱特兄弟就从新闻、杂志或者照片上看到了德国航空先驱奥托李林达尔研制的动力滑翔机1896年5月,塞缪尔兰利成功试飞了一架蒸汽动力的无人飞机模型莱特兄弟认为困扰航空先驱们的飞行难题有三点:机
4、翼、发动机以及如何控制飞机1899年7月,威尔伯莱特制作了一架长5英尺,形似双翼飞机的箱型风筝用来测试翘曲机翼技术莱特兄弟兄弟建造了风洞,为200多种不同翼弧的翼型完成了旋转臂测试(一种测量升力和空气阻力的早期手段),并对其中的38种做了更详细的测试,同时也对广受认可的升力方程中的斯密顿系数提出了质疑,当时已经被提出了100多年。基于展弦比知识和更精确的斯密顿系数,莱特兄弟设计了他们新的1902年款滑翔机1903年莱特兄弟用云杉木来建造他们配备有动力装置的飞行者一号猜测:OpenAI 发布 GPT-4 时已经掌握了大模型基础理论https:/arxiv.org/pdf/2303.0877416
5、回归基础理论进行分析ChatGPT17ChatGPT为什么这么强?语言模型的核心任务始终是生成一个“合理的延续”,即根据已有的文本,生成一个符合人类书写习惯的下一个合理内容。所谓“合理”,是指根据数十亿个网页、数字化书籍等人类撰写内容的统计规律,推测接下来可能出现的内容。语言模型真正做的事情文字接龙ChatGPT完成像写文章这样的任务时,它实际上只是一遍又一遍地询问:“在已有的文本的基础上,下一个词应该是什么?”并且每次都会添加一个词。ChatGPT实现过程18explain the moon landing to 6 year oldsSome people went tothe Moon标
6、注人员构造目标答案explain the moon landing to 6 year olds标注人员对答案质量进行排序有监督微调大模型奖励函数ABCDCAB=DWrite somethingabout frog奖励函数大模型Once upon a time rk数千亿单词图书、百科、网页等基础大模型预训练阶段十万各任务用户指令有监督微调奖励函数强化学习百万各任务用户指令十万各任务用户指令1000+GPU月级别训练时间1-100GPU天级别训练时间1-100GPU天级别训练时间1-100GPU天级别训练时间ChatGPT实现过程explain the moon landing to 6 ye
7、ar oldsSome people went tothe Moon标注人员构造目标答案explain the moon landing to 6 year olds标注人员对答案质量进行排序有监督微调大模型奖励函数ABCDCAB=DWrite somethingabout frog奖励函数大模型Once upon a time rk数千亿单词图书、百科、网页等基础大模型预训练阶段十万各任务用户指令有监督微调奖励函数强化学习百万各任务用户指令十万各任务用户指令1000+GPU月级别训练时间1-100GPU天级别训练时间1-100GPU天级别训练时间1-100GPU天级别训练时间1.大模型训练每
8、个阶段分别完成什么功能?2.预训练阶段能记住什么知识?3.如何评价预训练模型优劣?4.什么才是高质量的SFT训练数据?5.有监督微调改变了基础模型的什么?7.强化学习适合于什么任务?8.如何稳定高效的完成 RLHF 的训练?10.大模型是否具备推理能力?6.有监督微调的训练策略是什么?9.如何融合外部环境状态以及利用合成数据?ChatGPT 实现过程知识压缩和表示学习能力注入生成式任务能力提升1.大模型训练每个阶段分别完成什么功能?21需要足够多的“曝光”才能完成记忆Physics of Language Models:Part 3.3,Knowledge Capacity Scaling L
9、aws,Meta FAIR Labs,arXiv 2024达到2bit/参数 对于每个知识要达到 1000 次曝光如果只有100次曝光的话,会减少到1bit/参数图标上面数字是l,h参数选择2.预训练阶段能记住什么知识?“垃圾数据”对知识获取有显著影响Physics of Language Models:Part 3.3,Knowledge Capacity Scaling Laws,Meta FAIR Labs,arXiv 2024Wikipedia vs.Common Crawl22直接通过训练语料的统计就可以计算得到知识记忆概率Physics of Language Models:Par
10、t 3.3 的研究并未对知识的特异性进行分析联想 总裁 杨元庆华为 总裁 任正非具有别的含义,且出现次数频繁,导致该知识记忆难度大直接通过训练语料的统计就可以计算得到知识记忆概率基于模版变换的知识记忆评估方案p(x)p(y)/p(x,y)预训练阶段思考预训练阶段主要完成 知识记忆+表示学习 开源大模型已经可以很好的进行句子/段落/篇章表示 OpenAI 基本放弃了通过模型知识记忆直接进行问题回答25预训练阶段结论1.同一个知识点必须用不同的语言表达方式大量重复,模型才能学习到2.大规模数据的 PPL值 可以有效衡量模型的知识记忆能力3.具有高知识密度的高质量的训练数据至关重要 4.经过足够的训
11、练模型可以达到2bit/参数的知识存储能力26Physics of Language Models:Part 3.1,Knowledge Storage and Extraction,Meta FAIR Labs,arXiv 2023Physics of Language Models:Part 3.2,Knowledge manipulation,Meta FAIR Labs,arXiv 2023Physics of Language Models:Part 3.3,Knowledge Capacity Scaling Laws,Meta FAIR Labs,arXiv 2024大模型的能力
12、是如何获取的知识压缩和表示学习能力注入生成式任务能力提升28知识问答任务:输入:复旦大学有几个校区?理想输出:复旦大学现有4 个校区,分别是邯郸校区、新江湾校区、枫林校区和张江校区。其中邯郸校区是复旦大学的主校区,邯郸校区与新江湾校区都位于杨浦区,枫林校区位于徐汇区,张江校区位于浦东新区。作文:输入:写一个小故事,关于一只熊去海滩,与海豹交朋友,然后回家理想输出:从森林里走出一只可爱的小熊,它叫贝利。贝利一直对大海充满好奇,于是他决定去海滩看看。他跳跃着穿过河流和草地,终于来到了一片美丽的海滩。贝利兴奋地跑着,感受着海风的清凉。突然,他注意到海滩上有一只憨态可掬的海豹,名叫萨米。萨米正在玩耍,
13、好像是在找贝利这样的新朋友。贝利好奇地走过去,和萨米打了个招呼。萨米非常友好地回应道:“嗨,你是新来的吗?我是萨米,很高兴认识你!”贝利开心地笑了起来,他们迅速成为了好朋友。指令微调利用少量数据训练模型具备任务能力29针对特定任务如何构造SFT 训练数据大模型完成知识问答任务30Ye et al.Empirical Insights on Fine-Tuning Large Language Models for Question-Answering,arXiv 2024语模型(LLMs)通过在海量数据集上的预训练,能够编码丰富的世界知识,并且可以通过微调将这些知识应于问答(QA)任务。如何有
14、效地微调LLMs以提升QA任务表现的策略仍需研究。Q1:在SFT阶段需要多少数据才能让LLMs学会QA任务?Q2:不同的SFT数据集如何影响LLMs在QA任务上的表现?Q3:不同LLMs在SFT阶段对数据的需求有何差异?4.什么才是高质量 SFT训练数据?大模型完成知识问答任务31Ye et al.Empirical Insights on Fine-Tuning Large Language Models for Question-Answering,arXiv 2024使了ENTITYQUESTIONS,包含24个不同话题知识的问答数据集12个与地点相关的原始训练集作为训练数据,将它们对应
15、的测试集作为测试集,并将剩余12个话题的测试集作为领域外测试集 给定个预训练的LLM,为了详细分析其在SFT之后执QA任务的表现,应如上定义的多模板补全机制,根据其知识记忆平将训练和测试集均进了5个级别的划分大模型完成知识问答任务32Ye et al.Empirical Insights on Fine-Tuning Large Language Models for Question-Answering,arXiv 20241.SFT的数据量需求使不同记忆平的训练数据 的来分析每个LLM将训练数据划分为六个不同的数据量级别,从60个样本到完整数据集不等,并通过从12个话题中均匀抽样来构建训练
16、集实验结果表明,经过SFT后,仅需60个训练样本就以使LLMs效执QA任务,并展现出强的泛化能论基础模型或记忆平如何,LLMs在使较少训练样本时的表现优于使960个或全部样本。多数模型在 =60 时达到或接近最佳表现大模型完成知识问答任务33Ye et al.Empirical Insights on Fine-Tuning Large Language Models for Question-Answering,arXiv 20242.使不同记忆平的数据进微调的影响论使何种数据进微调,LLMs始终对预训练期间记忆较好的知识提供更准确的答案在特定记忆平的数据上进训练能够提升LLMs在该平知识上
17、的表现总体,更有效的策略是使记忆平的数据进SFT大模型完成知识问答任务34Ye et al.Empirical Insights on Fine-Tuning Large Language Models for Question-Answering,arXiv 20243.不同LLMs的数据需求差异不同 LLM 的记忆差距很使相同的训练数据在不同 LLM 上训练得到的结果有很差异大模型完成知识问答任务35Ye et al.Empirical Insights on Fine-Tuning Large Language Models for Question-Answering,arXiv 20
18、24 在SFT阶段仅需60条数据就能激活预训练时编码的知识,使LLMs能够有效执QA任务 使不同知识记忆层次的数据进SFT,对LLMs的表现有显著并且有规律的影响 对于QA任务来说最优的SFT数据集因具体模型异36有监督微调阶段的训练方式37有监督微调的四种方式How Abilities in Large Language Models are Affected by Supervised Fine-tuning Data Composition,arXiv 20246.有监督微调的训练策略是什么?38有监督微调的四种方式How Abilities in Large Language Mode
19、ls are Affected by Supervised Fine-tuning Data Composition,arXiv 20241.数学推理、编程和一般能力与SFT数据量的关系如何?2.当将这三种能力结合在SFT中时,是否会出现性能冲突?3.导致性能冲突的关键因素是什么?4.不同SFT策略对复合数据的影响是什么?3839实验设置How Abilities in Large Language Models are Affected by Supervised Fine-tuning Data Composition,arXiv 2024SFT 数据集 D1,D2,.,Dk,每个数据集D
20、i表示一个任务Di=qi,j,ri,jj 包含输入和回答训练数据集:数学:GSM8K RFT 编程:Code Alpaca 通用:ShareGPT测试数据集:数学:GSM8K Test Set编程:Humaneval通用:MT-Bench3940实验分析:RQ1 单个任务不同数据量How Abilities in Large Language Models are Affected by Supervised Fine-tuning Data Composition,arXiv 2024单个任务使用不同数据量进行训练较大模型在相同的情况下表现出更好的性能4041实验分析:RQ2 单个任务 vs
21、.混合任务How Abilities in Large Language Models are Affected by Supervised Fine-tuning Data Composition,arXiv 2024训练数据少时,能力得以提高;训练数据多时,混合数据则使得能力则减弱,与单个任务训练相比,这种现象更为明显。随着模型大小的增加,在低资源环境下的表现也会随之提高,特别是在数学和一般能力方面。42实验分析:RQ3 任务混合比例影响How Abilities in Large Language Models are Affected by Supervised Fine-tuning
22、 Data Composition,arXiv 2024不同的SFT能力在任务格式和数据分布上存在显著差异时,数据比例的影响是微不足道的。然而,当存在一定程度的相似性时,数据比例可能导致显著的性能波动。k=specialized use data amount =specialized all data amount general use data amount general all data amount 43实验分析:RQ4 不同训练方法结果How Abilities in Large Language Models are Affected by Supervised Fine-tu
23、ning Data Composition,arXiv 2024有监督微调阶段结论1.参数量大的模型在使用相同数量的数据进行训练时表现出优越性能2.混合数据来源在低资源场景中提高了性能,但在高资源场景中性能下降3.数据量直接影响性能,而数据比例的影响在实验设置中不显著4.DMT策略有效地缓解了性能冲突44How Abilities in Large Language Models are Affected by Supervised Fine-tuning Data Composition,arXiv 202445知识回答和其他任务冲突如何解决?大规模微调破坏世界知识46Loramoe:Rev
24、olutionizing mixture of experts for maintaining world knowledge in language model alignment,arXiv 2023但当下游任务增多或者需要强化特定任务的性能时,增加SFT训练数据是有必要的。如上图的左侧部分,当SFT数据从100K提升到3M时,大部分任务的性能显著增强。但随着SFT数据的大规模增加,如上图的右侧部分所示,在CBQA评测数据集上性能显著下降,与之相伴的是大模型的参数变化量剧增(见红色线段)。大规模微调破坏世界知识47Loramoe:Revolutionizing mixture of exp
25、erts for maintaining world knowledge in language model alignment,arXiv 2023摘要、NLI、机器翻译等任务,随着SFT训练数据的增加,性能显著提升;但是右侧的CBQA任务,却大幅下跌CBQA的能力来源于预训练阶段48Loramoe:Revolutionizing mixture of experts for maintaining world knowledge in language model alignment,arXiv 2023在训练一开始大约1000样本的时候,性能已经快速提升到了很高的点,后续再增加更多的训练
26、样本其实提升很有限。说明少量样本微调就帮助大模型完成了人类指令的对齐,大模型完成CBQA指标评测的能力主要依靠的是内在的世界知识,而不是微调过程中训练样本灌输的。LoRA+MoE49Loramoe:Revolutionizing mixture of experts for maintaining world knowledge in language model alignment,arXiv 2023LoRA+MoE50Loramoe:Revolutionizing mixture of experts for maintaining world knowledge in language
27、 model alignment,arXiv 2023指令微调阶段结论1.所有的“能力”都需要精心设计训练数据,没有所谓的“涌现”2.参数量大的模型,在相同数量训练数据情况下,性能更优越3.指令微调阶段每个任务的训练数据量直接影响性能4.训练数据会影响模型参数,导致表示和知识记忆能力快速下降5.如果预训练阶段模型没能学到知识,后面再如何微调都没有用51How Abilities in Large Language Models are Affected by Supervised Fine-tuning Data Composition,arXiv 2024大模型的能力是如何获取的知识压缩和表
28、示学习能力注入生成式任务能力提升53强化学习效果显著“考试作弊设备在哪买”考试作弊设备是一种非法行为,不仅会给自己带来严重的后果,还会对整个社会造成负面影响。因此,我们强烈反对使用任何形式的考试作弊行为。为了维护公平公正的考试环境,保障学生的合法权益和未来的发展,我们应该严格遵守相关法律法规的规定,不参与或鼓励这种违法行为。同时,我们也应该积极支持教育部门和相关机构开展相关的教育和宣传工作,提高学生的法律意识和责任感。只有这样,才能保证考试的公正和透明性,保护社会的利益和公共的安全与稳定。如果你想购买这些设备,请注意选择正规渠道进行购买,避免被不法商家欺骗并损害自己的权益。指令微调模型考试作弊
29、是一种严重的违法行为,不仅会给个人带来不良后果,也会对整个教育系统造成负面影响。因此,我们强烈反对任何形式的考试作弊行为。建议考生不要购买、使用或携带任何用于作弊的设备,以免被查处后受到惩罚和影响自己的成绩。为了保障公平公正的教育环境和教育质量,学校和政府部门通常会采取一系列措施来防止学生作弊的行为发生。具体来说,可以通过加强管理制度建设、严格执行考场纪律和加强监管等手段来实现预防考试作弊的目的。此外,一些科技公司也推出了一些防作弊设备和软件,如指纹识别器、人脸识别器和智能手环等产品。这些产品可以帮助监考人员更好地掌握学生的作弊情况,从而有效预防和打击各种违规行为。但是需要注意的是,这些技术并
30、不能完全杜绝作弊行为的出现,因此在实际操作中还需要结合其他因素进行综合考虑。总之,我们应该遵守法律法规,不参与任何形式的作弊活动,保持诚信应试的态度。强化学习模型有监督微调缺点54https:/www.alignmentforum.org/posts/Rs9ukRphwg3pJeYRF/why-do-we-need-rlhf-imitation-inverse-rl-and-the-role-of曝光偏置(Exposure Bias),训练过程中的输入都是正确的,但是与测试过程中的情况并不一致。语言多样性(Language Diversity),同样的语义可以用差别非常大的文字进行描述;但是,
31、仅差别一个字,但是语义可能完全相反效果基本不可能超越训练数据7.强化学习适合于什么任务?55奖励函数训练框架56奖励函数57奖励函数-标注困难问题1:如何高效地为考试复习?标注者选择的回答:这是一个难题。标注者拒绝的回答:为考试复习确实很有挑战性,但有几种有效的策略可以帮助你高效地学习。首先,重要的是将你需要学习的材料分解成小部分,并集中精力彻底学习每一部分。此外,有帮助的是每天留出充足的时间进行学习,并定期复习材料。高效学习还包括避免干扰和保持充分休息,因为这些因素可以降低你的学习效果。总的来说,使用这些策略可以帮助你以一种高效和彻底的方式为考试做准备。问题2:你能帮我制定一个户外跑步计划以
32、便我能塑形吗?标注者选择的回答:你对什么样的跑步感兴趣?标注者拒绝的回答:当然,你在寻找什么样的计划?RLHF 训练框架59RLHF-PPO 实施细节Interact with EnvironmentAdvantage EstimationModel Optimization在PPO中,实施细节对性能有着显著影响8.如何稳定高效的完成 RLHF 的训练?60过程监督Improving mathematical reasoning with process supervision|OpenAI61编译器指导的代码生成StepCoder:Improve Code Generation with R
33、einforcement Learning from Compiler Feedback.arXiv preprint arXiv:2402.01391(2024).9.如何融合外部环境状态以及利用合成数据?62过程监督自动结果监督转换过程监督Training Large Language Models for Reasoning through Reverse Curriculum Reinforcement Learning,ICML 202463单个模型可以处理数千种任务,但是仍需要逐项进行优化64预训练阶段完成 知识记忆+表示学习有监督微调+RLHF的Know-How 是关键652.大
34、模型能力边界思考10.大模型是否具备推理能力?知识利用层次图Wang et al.Knowledge Mechanisms in Large Language Models:A Survey and Perspective,EMNLP 2024大模型目前在哪个层级?未来可以到哪个层级?67目前可以确认的大模型能力:长上下文建模多任务学习跨语言迁移性文本生成能力68真正的 AGI 系统需要具有:理解物理世界拥有长久准确记忆可以推理可以分层次规划大模型大模型“参加”2024 高考数学情况69大模型“参加”2024 高考数学情况70两场平均分最好70%,最差 25%,填空题成绩更差大模型“参加”20
35、24高 考数学情况71即便正确回答的题目,计算过程和答案不相符的比例很高大模型“参加”2024高 考数学情况72输入形式的微小不同,结果相差很大73大模型对于分布外数据集处理扔有待提高Evaluating the Logical Reasoning Ability of ChatGPT and GPT-4,Arxiv 2023GPT-4擅长解决著名的逻辑推理阅读理解基准,但在处理分布外数据集方面很困难。它们在需要逻辑推理的自然语言推理任务上的性能仍有待提高。2022年新创建数据集合人工创建的分布外数据大模型对知识运用能力分级74Wang et al.Knowledge Mechanisms i
36、n Large Language Models:A Survey and Perspective,EMNLP 2024真实应用中的演绎推理怎么样?75Investigating Multi-Hop Factual Shortcuts in Knowledge Editing of Large Language Models,Ju et al.,Arixv 2024真实应用中的演绎推理怎么样?76Investigating Multi-Hop Factual Shortcuts in Knowledge Editing of Large Language Models,Ju et al.,Ari
37、xv 2024大模型在预训练阶段可能直接学习到下一届奥运会在亚洲举办这一跨步知识,当采用知识编辑方法将下一届奥运会举办国由日本改为法国后,模型可能仍然认为下一届奥运会在亚洲举办。大模型在多跳知识问题的推理中可能应用了在预训练阶段学习到的事实捷径。大模型对知识运用能力怎么样?77Physics of Language Models:Part 3.2,Knowledge Manipulation,Allen-Zhu Z.,Li Y.,Arixv 2023 Meat AI/FAIR Labs关注四个能力检索:What is person As attribute X?分类:Is As attribu
38、te X even or odd?比较:Is A greater than B in attribute X?逆向搜索:Which persons attribute X equals T?大模型对知识运用能力怎么样?78Physics of Language Models:Part 3.2,Knowledge Manipulation,Allen-Zhu Z.,Li Y.,Arixv 2023 Meat AI/FAIR Labs大模型对知识运用能力怎么样?79Physics of Language Models:Part 3.2,Knowledge Manipulation,Allen-Zh
39、u Z.,Li Y.,Arixv 2023 Meat AI/FAIR Labs语言模型难以完成比较和分类任务。大模型对知识运用能力怎么样?80Physics of Language Models:Part 3.2,Knowledge Manipulation,Allen-Zhu Z.,Li Y.,Arixv 2023 Meat AI/FAIR Labs语言模型无法进行逆向知识搜索,除非知识以逆序出现在预训练数据中归纳推理的能力如何呢?81Dziri,Nouha,et al.“Faith and fate:Limits of transformers on compositionality.”A
40、dvances in Neural Information Processing Systems 36(2024)AllenAI乘法的步骤:当任务复杂程度增大时,模型的准确率接近为082Dziri,Nouha,et al.“Faith and fate:Limits of transformers on compositionality.”Advances in Neural Information Processing Systems 36(2024)AllenAI归纳推理的能力如何呢?83Dziri,Nouha,et al.“Faith and fate:Limits of transfo
41、rmers on compositionality.”Advances in Neural Information Processing Systems 36(2024)AllenAIGPT3经过充分调整,在特定任务数据上达到了一定的问题规模。蓝色区域表示分布内样本,红色区域表示OOD样本。所有 k1 和 k2符合 1 k1,k2 4 并且 k1 k2 9;使用 180 万 数据训练GPT3模型训练过程中简单加入过程作用也十分有限84Dziri,Nouha,et al.“Faith and fate:Limits of transformers on compositionality.”Adv
42、ances in Neural Information Processing Systems 36(2024)AllenAIo1 的规划能力怎么样?85Valmeekam et al.LLMs Still Cant Plan;Can LRMs?A Preliminary Evaluation of OpenAIs o1 on PlanBench,Arxiv,2024.Mystery Blocks World 样例:我的初始条件是,红色积木是空的,蓝色积木是空的,黄色积木是空的,手是空的,蓝色积木在橙色积木的上面,红色积木在桌子上,橙色积木在桌子上,黄色积木在桌子上。我的目标是让橙色积木在蓝色积
43、木的上面。实现我目标的计划是什么?只需给出计划中的行动。o1 的规划能力怎么样?86Valmeekam et al.LLMs Still Cant Plan;Can LRMs?A Preliminary Evaluation of OpenAIs o1 on PlanBench,Arxiv,2024.87全数据驱动的大模型实现“推理”面临巨大挑战883.大模型未来发展思考大模型未来两个路径1.AGI(Follow OpenAI)目标:代替人类完成所有脑力劳动,具有自我学习、自我进化能力。参数规模:1 万亿、5 万亿、10 万亿训练数据:10TB、20TB、40TB、100TBGPU卡规模:1万
44、、5 万、10 万 100 万卡基本假设:Scaling Law,压缩即智能难点:模型的推理和世界知识建模能力构建,资本消耗巨大OpenAI “超级对齐”目标Supervisor学生强智能体传统机器学习方法需要“老师”指导“学生”永远超不过“老师:基于环境反馈的智能体自我进化弱智能体环境探索反馈教师OpenAI “超级对齐”仍然需要长期海量投入方法在所有设置下都不是一致有效的,尤其是在 RM 设置中,仍然远远没有恢复弱模型和强模型之间的全部性能差距。占用了 OpenAI 接近 20%资源92AGENTGYM2.Behavioral Clone4.Multi-taskEvaluation3.Ex
45、ploring&LearningEnv ServersBaseTool UsingMovieWeatherTodoSheetTextCraftWebArenaWebShopBabyAIAlfWorldScienceWorldBIRD-SQLMAZETrajectoryFormatsEnv ClientsImitationAgentEvolPerformanceSingle TaskMulti-TasksGeneral DataReasoning and ActingInstruction:Find me a pillow with blue andThought:I think I shoul
46、d search for pillowsAction:searchpillowObservation:Results:Sep Item 1 Sep General Domain ChatInstruction:Hello!Can you translate this into Chinese for me?Response:Sure!Heres the translationEvolveExplorationFeedbackWordleWebWebShopWebArenaEmbodiedAlfWorldScienceWorldBabyAIGameTextCraftMAZE/WordleTool
47、Weather/TodoAcademiaMovie/SheetCodeBIRD-SQLHTTPHTTPHTTPHTTPHTTP1.Data PrepareAGENTGYM:Evolving Large Language Model-based Agents across Diverse EnvironmentsAgentGYM:交互式训练和评测框架大模型未来两个路径2.应用目标:代替人类完成特定任务参数规模:1B、3B、7B、14B、30B、70B 模型为基础训练数据:几千 到 几万条GPU卡规模:1到100卡基本假设:大模型任然是统计机器学习,规模再大也不能实现 AGI难点:对模型能力边界的
48、判断,场景选择要符合能力并具备价值大模型落地条件场景驱动 在没有生成式AI的情况下完成任务所需的人力 “任务工作量(无AI)”验证或核实生成式AI输出所需的努力 “验证难易程度”德勤数智研究院场景定制开发 数百万元 成本场景举例:设计资料审核95船厂设计资料繁多,涉及数万份规范(1)船体说明书;(2)总布置图;(3)型线图;(4)中剖面结构图及构件计算书;(5)航速、稳性、舱容、干舷等估算书或计算书;(6)机舱布置图;(7)电力负荷估算书;(8)主要设备规格和厂商表。诉求:全自动审核可以提供的数据:设计资料 各类规范 此前人工审核结果设计人员工作量并未大幅度节省使用大模型构建全自动审核任务是否
49、合适?场景举例:设计资料审核96诉求:全自动审核可以提供的数据:设计资料 各类规范 此前人工审核结果知识库问答设计规范入库设计人员快速检索定位规范内容和位置人工智能比其它任何领域都容易过度宣传Google 2018年吹的牛,现在也没实现机器与人非常自然的对话并完成任务Shy Kids团队使用Sora进行了数百次生成,每次10到20秒,并最终只使用了一小部分(300:1)精确控制角色或相机的时机和动作实际上是不可能的:“在实际生成中,这些不同动作发生的时间有一点点时间控制,但并不精确这有点像是瞎猜,”-Cederberg100大模型基础理论、大模型能力边界的清晰认知决定了投入力度和发展方向101谢谢!