《浙江大学:2025大小模型端云协同赋能人机交互报告(55页).pdf》由会员分享,可在线阅读,更多相关《浙江大学:2025大小模型端云协同赋能人机交互报告(55页).pdf(55页珍藏版)》请在三个皮匠报告上搜索。
1、大小模型端云协同赋能人机交互张圣宇浙江大学2025年4月2 马斯克的大胆预言:碳基生命(也就是我们人类)只是硅基生命的启动程序。随着科技的不断发展,尤其是AI领域取得的突破,以人工智能为主的硅基生命形态将会在未来成为地球上的主宰生物。2007年1月9日,乔布斯发布第一代iPhone苹果手机,把iPod、电话、移动互联网设备等进行有机整合,推动了移动互联网进入了黄金发展年代。今天大模型给人类社会诸多生产、生活模式带来一次大变革。2023年2月,英伟达创始人兼CEO黄仁勋提出随着ChatGPT为代表的大模型出现,我们已经进入“人工智能的iPhone时刻(iPhone moment of AI)”,
2、这一观点受到美国财富杂志、华尔街时报等媒体的广泛认可并转载。DeepSeek在模型算法和工程优化方面进行了系统级创新,在2048块英伟达H800 GPU(针对中国市场的低配版GPU)集群上完成训练,打破了大语言模型以大算力为核心的预期天花板,为在受限资源下探索通用人工智能开辟了新的道路。DeepSeek&ChatGPThttps:/ my eyeshttps:/ 端云协同(Device-Cloud Collaboration):指边缘设备(如智能手机、IoT设备)模型和云侧服务器模型协同进化推断。l 云侧大模型(Large Model):通用认知计算,拥有强大的计算能力、海量的数据、充分的知识
3、库。l 终端小模型(Small Model):实时感知、实时响应,运行轻量级任务,响应速度快。https:/hanlab.mit.edu/courses/2024-fall-65940l 端云协同计算通过卸载部分学习任务至端侧,让端和云协同完成任务,从而发挥终端靠近用户和数据源的天然优势,降低服务延时至毫秒级,增强模型个性化精准推理能力,缓解云服务器中心负载压力,同时支持用户原始数据在设备本地处理l 有效克服主流云学习范式在实时性、个性化、负载成本、隐私安全等方面的不足自动驾驶(Gan et al.)Yulu Gan,Mingjie Pan,Rongyu Zhang,et al.:Cloud-
4、Device Collaborative Adaptation to Continual Changing Environments in the Real-World.CVPR 2023:12157-12166Chengfei Lv,Chaoyue Niu,Renjie Gu,et al.:Walle:An End-to-End,General-Purpose,and Large-Scale Production System for Device-Cloud Collaborative Machine Learning.OSDI 2022:249-265Xufeng Qian,Yue Xu
5、,Fuyu Lv,Shengyu Zhang,et al.:Intelligent Request Strategy Design in Recommender System.KDD 2022:3772-37823D渲染(Lv et al.)推荐系统(Qian et al.)前沿应用大小模型端云协同大小模型端云协同大小模型协同+端云高效协同基于调度的协同基于反馈的协同基于生成的协同大模型小模型反馈学习检索增强大模型小模型调度大模型小模型调度IntellectReq自主智能请求WWW 24FiGRetRAG反馈学习Arxiv大模型小模型1小模型2小模型3模型架构参数生成大模型小模型任意模型知识迁
6、移ModelGPT大模型生成小模型ArxivMergeNet任意模型知识迁移AAAI 25大模型小模型反馈学习单视角采样MPOD1232D到3D生成CVPR 2024LLMCO4MS组合优化LLMECCV 2024联合应用平台既有的特定业务小模型特定业务小模型与云侧大模型云侧大模型,将端侧小模型轻量部署、快速响应、个性适配端侧小模型轻量部署、快速响应、个性适配的优势,和云侧大模型认知推理、多模态理解、通用泛化云侧大模型认知推理、多模态理解、通用泛化的优势进行互补大小模型协同基础算法研究大小模型协同基础算法研究基于融合的进化大模型小模型基于融合的不相容参数优化CKIAAAI 25基于调度的协同基
7、于反馈的协同基于生成的协同大模型小模型反馈学习检索增强大模型小模型调度大模型小模型调度IntellectReq自主智能请求WWW 24FiGRetRAG反馈学习Arxiv大模型小模型1小模型2小模型3模型架构参数生成大模型小模型任意模型知识迁移ModelGPT大模型生成小模型ArxivMergeNet任意模型知识迁移AAAI 25大模型小模型反馈学习单视角采样MPOD1232D到3D生成CVPR 2024LLMCO4MS组合优化LLMECCV 2024联合应用平台既有的特定业务小模型特定业务小模型与云侧大模型云侧大模型,将端侧小模型轻量部署、快速响应、个性适配端侧小模型轻量部署、快速响应、个性
8、适配的优势,和云侧大模型认知推理、多模态理解、通用泛化云侧大模型认知推理、多模态理解、通用泛化的优势进行互补大小模型协同基础算法研究大小模型协同基础算法研究基于融合的进化大模型小模型基于融合的不相容参数优化CKIAAAI 25 大模型驱动的小模型生成框架大模型驱动的小模型生成框架ModelGPT ModelGPT+用户对模型的需求描述模型的需求描述+少量数据少量数据=(推理生成)开箱即用小模型。在 All-in-One 的通用大模型范式之外,初步探索 One-to-All 的可能性,为更广泛的小数据、小算力(边端)、离线应用场景提供AI落地支撑。在NLP,CV,和,和Tabular Data典
9、型数据集上进行验证,性能超越性能超越Finetune方法。Please give me an artificial intelligence model,making itbest suitable for UserData/UserDescri pti on.Model Customizer/Please help me discriminate the category ofthe given images.These images are officesupplies takenbyaDSLR camera.DataDesc.*.Users can choose to provide l
10、abeled data or descriptions,or bothModelGeneratorRequirementEncoderModule-Wise ParameterGeneratorLatent SpaceTransformationCustomizedModule 1:layer1.0.conv1CustomizedModule 2:layer1.1.conv2Customized Module n:classifierParameter GeneratorscissorsmousebottlebikeImage/Please help me discriminate wheth
11、er the inputsentence is semanticallyacceptable.DataDesc.Text/Please help me classify the tabular data fromthe dataset Iris.DataDesc.TabularOther Methods(Optional)LoRAAll-Parameter Finetuning(Optional)GeneratedModelGeneratedModelTabularImageMulti-classImageClassificationMLPResNetDistill-BERTType Reco
12、gnitionTextBinaryText ClassificationMLPDistill-BERTResNetTextImageTabularMulti-classTabular ClassificationResNetMLPDistill-BERTGeneratedModelModules AggregationGeneratedModelImageTextTabularRequirement GeneratorModelGPTGeneral requirements to instruct LLMExample case study and analysis for LLM to im
13、itateScissorsMouseBottleBikeNow,I will present a new batch of data along with theirbackground information.The images are includedwithin the passage.TheyaretakenbyaDSLR camera.ImageThis is a multi-class classification task,whereeach image features office-related items with ashallow depth of filed,a c
14、haracteristic effect ofusingaDSLR camera.Next,I will give you a batch,act just as I instruct above.sentence They drank the pub dry l abel acceptable sentence They drank the pub l abel unacceptable sentence The professor talked us into a stupor l abel acceptable.sentence The professor talked us l abe
15、l unacceptableTextMind that you should describe the batch as instructed above use ONLY 1 sentence.Next,I will give you a batch,act just as I instruct above.This is dataset Iris.i nput SepalLen:5.1,SepalWid:3.5,PetalLen:1.4,PetalWid:0.2 l abel Iris-setosa.i nputSepalLengthCm:5.8,SepalWidthCm:2.7,Peta
16、lLengthCm:4.1,PetalWidthCm:1 l abel Iris-versicolorTabularThis is a task of tabular classification torecognize which type of irisplantthe input is.Generated Model They drank the pub dry.acceptableThey drank the pub.unacceptableThe professor talked us into a stupor.acceptableThe professor talked us.u
17、nacceptableSepalLen SepalWidPetalLenPetalWidLabel5.13.52.40.2Iris-setosa5.82.74.11Iris-versicolor4.92.54.50.7Iris-virginica5.43.41.50.4Iris-setosaThis is a task of text classification to recognizewhether the input sentence is semanticallyacceptable.CustomizedModulesUser RequirementUser Data/Descript
18、ionOutputUser InputFinetune(Optional)ModelGPTRequirement GeneratorModel CustomizerUserDataUserDataZihao Tang,Zheqi Lv,Shengyu Zhang,Fei Wu,Kun Kuang:ModelGPT:Unleashing LLMs Capabilities for Tailored Model Generation.CoRR abs/2402.12408(2024)基于生成的协同:基于生成的协同:One(大模型)(大模型)to All(小模型)生成(小模型)生成 大模型驱动的小模
19、型生成框架大模型驱动的小模型生成框架ModelGPT 在NLP,CV,和,和Tabular Data典型数据集上进行验证,性能超越性能超越Finetune方法。给定用户的需求ModelGPT能够以至多先前范式(例如全参数微调、LORA微调)270倍速度倍速度快速生成定制好的人工智能模型。基于生成的协同:基于生成的协同:One(大模型)(大模型)to All(小模型)生成(小模型)生成研究背景现有知识迁移方法(例如,知识蒸馏,迁移学习)要求端云具有相似的任务类型或模型架构,难以应用于跨异构模型、任务和模态的异构知识迁移场景。知识蒸馏利用Logits和Feature Map表示知识,依赖于任务类型
20、。迁移学习通常通过共享参数实现知识迁移,依赖于模型架构。异构模块(线性层 注意力机制模块)之间知识不兼容。不同规模模型之间知识不兼容。模型知识统一表示模型知识统一表示异构模型知识适配挑战Li K,Zhan T,Fu K,Zhang S,et al.MergeNet:Knowledge Migration across Heterogeneous Models,Tasks,and Modalities.AAAI 2025跨越异构模型、任务、模态的统一模型知识迁移框架跨越异构模型、任务、模态的统一模型知识迁移框架 异构模型知识表示:以参数为载体,重新编码端云模型参数,实现对异构知识的统一表示异构知
21、识适配:设立参数适配器,促进异构参数空间的交互,提取并对齐有效的信息,实现高效知识迁移创新方法研究问题研究基于端云协同的跨异构模型架构、任务和模态的异构知识迁移框架。异构模型知识表示异构知识适配协同训练流程参数适配器 知识基本单元 按行/列展开按行/列展开注意力机制更新端侧模型跨越异构模型、任务、模态的统一模型知识迁移框架跨越异构模型、任务、模态的统一模型知识迁移框架Li K,Zhan T,Fu K,Zhang S,et al.MergeNet:Knowledge Migration across Heterogeneous Models,Tasks,and Modalities.AAAI 2
22、025应用验证克服了传统知识迁移需要具有相似任务类型或模型架构的限制跨架构知识迁移跨模态知识迁移跨任务知识迁移跨架构知识迁移跨模态知识迁移跨任务知识迁移异构知识迁移统一异构知识表示知识交互融合有效应用于各种具有挑战性的场景,及传统知识迁移方法有效应用于各种具有挑战性的场景,及传统知识迁移方法不适用不适用的场景的场景传统知识迁移存在的问题模型结构差异性限制任务类型匹配要求异构知识表示不兼容跨越异构模型、任务、模态的统一模型知识迁移框架跨越异构模型、任务、模态的统一模型知识迁移框架Li K,Zhan T,Fu K,Zhang S,et al.MergeNet:Knowledge Migration
23、 across Heterogeneous Models,Tasks,and Modalities.AAAI 2025大小模型端云协同大小模型协同+端云高效协同云智能的局限移动端智能的局限算力限制带宽限制电量限制内存限制l混合AI指终端和云端协同工作,在适当的场景和时间下分配AI计算的工作负载,以提供更好的体验,并高效利用资源。在一些场景下,计算将主要以终端为中心,在必要时向云端分流任务。而在以云为中心的场景下,终端将根据自身能力,在可能的情况下从云端分担一些AI工作负载。高通:生成式端云混合智能-高通终端侧AI 和混合AI 开启生成式AI 的未来端云协同智能-高通终端侧AI 和混合AI 开启
24、生成式AI 的未来端云协同智能端云异构模型知识互迁与协同推断云端任务/场景1端任务/场景2Cloud to Device(C2D)DeVLBert/DeVADG跨任务/场景泛化ACM MM 20/AAAI 23大规模因果预训练云AUG-KD迁移压缩ICLR 24特定端Cloud for Device(C4D)云DUET实时适应WWW 23特定端实时参数实时数据云IntellectReq实时自主适应WWW 24特定端实时参数实时数据分布偏移检测自主请求云AdaRequest自主请求KDD 22特定端增量预测自主请求Device to Cloud(D2C)云端模型1端模型2DIET/Forward
25、-OFA高效定制高效定制KDD 24/KDD 25云特定端FedCFA/CausalD因果去偏汇聚AAAI 25,TKDE 23研究背景l 大模型向端侧迁移部署往往采用知识蒸馏等压缩手段,传统知识整理方法假设大模型训练数据分布(压缩前)和小模型测试数据分布(压缩后)服从独立同分布假设(IID Hypothesis)。l 实际应用中,源域数据和应用场景存在分布偏移,导致压缩性能显著下降。理论分析l 数据蒸馏的目标:min,;+;,.l 多数场景下,源域分布和应用场景存在分布偏移分布偏移(),违反独立同分布假设。l 情况1:,对应无数据蒸馏方法(由生成器拟合),蒸馏出的目标模型并不适用。l 情况2
26、:,源模型给出的知识不一定有效。独立同分布假设(IID Hypothesis):源域源域和目标域目标域(应用场景)独立同分布。在此情况下进行知识蒸馏,源域的知识可以很好地指导模型完成目标域的任务。Zihao Tang,Zheqi Lv,Shengyu Zhang,Yifan Zhou,Xinyu Duan,Fei Wu,Kun Kuang:AuG-KD:Anchor-Based Mixup Generation for Out-of Domain Knowledge Distillation.ICLR 2024面向未知端侧分布的压缩-适应联合研究背景l 端云分布异质:云侧全局数据分布体现平台整
27、体共性与端侧特化分布存在偏移l 端云有偏汇聚:有偏数据导致端侧偏见,相似偏见端侧模型导致云侧有偏汇聚数据分布异质性导致的“局部观察到的趋势在全局数据中消失或反转”的辛普森悖论,使得云侧汇聚模型无法准确反映整体数据分布,给端向云去偏汇聚带来了巨大挑战l 虚假相关:端侧数据局部且有限,存在虚假的因子-标签关联,忽视真实因果关系l 因子耦合:因子之间存在复杂的相互依赖关系,难以有效解耦出独立的因果关系分布分布异质 因子因子混杂Jiang Z,Xu J,Zhang S,et al.FedCFA:Alleviating Simpsons Paradox in Model Aggregation with
28、 Counterfactual Federated Learning.AAAI 2025White catBlack dog外观 颜色因子混杂标签利用端侧反事实表征学习实现端向云去偏汇聚 反事实表征学习:利用全局平均数据信息在端侧生成反事实样本,实现端侧模型去偏训练因子去相关模块:基于相关性分析设计因子去相关模块对因子解耦,提高反事实样本的质量创新方法研究问题利用端侧反事实表征学习解决云侧模型联邦汇聚中“辛普森悖论”难题。反事实表征学习因子去相关模块缓解辛普森悖论因子解耦Encoder反事实样本生成相关性分析因子去相关损失因子提取参数更新利用端侧反事实表征学习实现端向云去偏汇聚Jiang Z,
29、Xu J,Zhang S,et al.FedCFA:Alleviating Simpsons Paradox in Model Aggregation with Counterfactual Federated Learning.AAAI 2025实验验证当前端云协同存在的问题数据高度异质性云端分布差异大云侧模型收敛慢端侧反事实表征学习端-云模型协同反事实样本生成因子去相关约束混杂因子解耦合突破了端云协同计算在分布偏移、数据异质场景中模型汇聚效率局限相比于主流联邦学习的最佳方法,云侧模型精度最高可提升7.75%云侧模型去偏汇聚的同时收敛速度提升2倍利用端侧反事实表征学习实现端向云去偏汇聚研究背
30、景l 端云分布异质:云侧全局数据分布体现平台整体共性与端侧特化分布存在偏移l 端侧分布迁移:端侧用户兴趣意图动态偏移,需要由云向端及时下发适配模型现有端侧部署方案采用云侧大规模预训练,通过模型压缩后传输至端侧进行部署。然而多阶段训练、稠密信息传输给端侧动态复杂环境下的高响应、低成本自适应带来了巨大挑战Device 1CloudDevice 2On-device resourceoccupied resourceavailable resourceuser countl 端侧计算资源有限:大量长尾用户移动设备算力有限,难以支撑本地训练微调l 端云通信资源有限:频繁下发稠密适配模型消耗大量通信带宽
31、资源,降低响应分布分布异质性 资源资源异质性Fu K,Zhang S,Lv Z,et al.DIET:Customized Slimming for Incompatible Networks in Sequential Recommendation.KDD 2024 Research Track基于端云协同的高效端模型参数定制 高效模型表示构建:基于神经网络彩票假说,将云向端训练压缩过程转化为传输适配子网二进制掩膜高效适配子网搜索:云侧学习建立实时数据到端侧个性子网掩膜的映射,仅需前向推理即可高效响应创新方法研究问题研究基于端云协同的低通信开销、高响应速度端模型定制算法。利用掩膜进行选择(一
32、层参数多掩膜)彩票假说理论端云子网搜索模型效率提升BaseOurs低传输延迟低存储成本低推理时延 方法优势低时延低成本下得到相似的表现 冻结参数实时数据生成掩膜掩膜生成器数据特征数据特征二进制掩膜数据特征线性微调更新输出参数掩膜Fu K,Zhang S,Lv Z,et al.DIET:Customized Slimming for Incompatible Networks in Sequential Recommendation.KDD 2024 Research Track基于端云协同的高效端模型参数定制应用验证当前推荐系统存在的问题通信开销大云端分布差异大端侧兴趣变化快设备计算资源有限
33、端侧个性子网搜索共性-个性协同大-小模型协同瘦身子网模型压缩端侧实时兴趣提取适配子网生成传输突破了端云协同计算在分布偏移、资源受限设备上训练推理效率局限降低模型由云向端下发的传输开销至原始大小的3%端侧模型能力提升的同时推理速度提升5倍基于端云协同的高效端模型参数定制大小模型端云协同大小模型协同+端云高效协同赋能与应用人工智能=人工+“智”+“能”人机交互“智”:理解使用者短视频APP、购物APP行为数据:观看视频、停留时长、互动(点赞、评论、分享)机器学习算法:根据历史行为预测喜好不是真正的“理解”,而是数据驱动的预测兴趣变化:AI能否快速适应?不能理解情感和临时兴趣变化如何提高灵活性和适应
34、性?推荐系统推荐系统推荐系统信息量巨大:社交媒体、新闻、视频、广告推荐系统帮助“过滤”信息,找到有用内容实时推荐的工作原理分析用户行为:点击、停留、互动基于行为预测用户兴趣,快速推荐相关内容“探索”和“发现”推荐系统帮助你发现未知的内容根据历史行为预测可能的兴趣点为什么需要移动端智能推荐?数据采集云端大模型在线推理结果分发响应决策大模型离线训练数据上云端侧内容生成通过部署轻量化小模型至端侧,发挥出终端设备靠近用户和数据源靠近用户和数据源天然优势,降低智能服务延时至毫秒级毫秒级,实现本地私有化私有化响应决策。端国产小模型实时推理数据采集响应决策大模型轻量压缩业务响应延时高秒 分钟级开放服务风险高
35、数据网络传输为什么需要移动端智能推荐?l动态变化的端环境导致资源有限情况下云模型的延迟响应,导致端侧服务与端侧环境的不匹配,损害用户的服务体验Xufeng Qian,Yue Xu,Fuyu Lv,Shengyu Zhang*,Ziwen Jiang,Qingwen Liu,Xiaoyi Zeng,Tat-Seng Chua,Fei Wu.Intelligent Request Strategy Design in Recommender System,KDD 2022用户点击率在云模型响应后陡升手机淘宝商品推荐系统端云大-小模型协同推断算法 端设备部署小模型实时检测端环境变化(用户兴趣意图变化
36、)通过因果潜在结果模型预估请求大模型响应价值 动态规划对云侧大模型的请求,最大化资源有限时的线上收益。Xufeng Qian,Yue Xu,Fuyu Lv,Shengyu Zhang*,Ziwen Jiang,Qingwen Liu,Xiaoyi Zeng,Tat-Seng Chua,Fei Wu.Intelligent Request Strategy Design in Recommender System,KDD 2022端云大-小模型协同推断算法直接经济效益(购买率)平台经济效益(商品交易总值)当前推荐系统存在的问题通信开销大隐私破坏风险隐时反馈噪声多无法实时感知用户因果因果+端云协同
37、端云协同共性-个性协同大-小模型协同隐私-效率协同因果结构学习机制因果潜在结构框架不确定性预估方法Xufeng Qian,Yue Xu,Fuyu Lv,Shengyu Zhang*,Ziwen Jiang,Qingwen Liu,Xiaoyi Zeng,Tat-Seng Chua,Fei Wu.Intelligent Request Strategy Design in Recommender System,KDD 2022端云大-小模型协同推断算法 协同训练:将云上大模型和端上小模型针对各自任务场景做针对性协作训练,提升场景适应性协同推理:将云上大模型和端上小模型的输出结果融合,集成强泛化能
38、力和强实时性的优势智能请求:对云上大模型和端上小模型的输出结果做不一致性检测,不一致性高的样本重新调用大模型创新方法研究问题研究基于端云协同的低通信开销、高响应速度端模型定制算法。协同训练协同推理与请求模型效率提升大幅补偿LLM无法获取实时数据下的推荐性能大小协同训练,使小模型能针对大模型的候选列表有更强的排序能力大小协同推理与请求,融合大小模型推理结果并决策何时调用云上大模型研究成效相比于先前方法显著提升,并在多个数据集上优于基线的结果,已被 KDD 2025 研究轨道录用云上大语言模型和端上小推荐模型的端云协同推荐云上大语言模型和端上小推荐模型的端云协同推荐人机交互“能”:像人一样行动语音
39、助手https:/ 技术路线https:/ Virtual Agents:A Survey on Autonomous Agents Across Digital Platforms规划:第一天、第二天。决策:使用订票软件行动1:打开订票APP、点击、输入、查询。行动2:打开住宿APP、点击、输入、查询。端智能体l OS Agents 是一种基于(多模态)大语言模型(M)LLMs)的智能代理,通过操作操作系统(OS)提供的环境和界面(如图形用户界面 GUI),利用计算设备(如电脑和手机)来自动执行任务。l 基础模型:总结LLM/MLLM based OS Agents的模型结构与训练方法(Pr
40、etrain、SFT、RL)。l 智能体框架:细分为感知、规划、记忆和行动。l 评估与基准:详细分析现有的评估协议、评估准则、评估指标;总结现存基准涉及平台、环境以及任务。l 安全:从攻击层面、防御层面和评估基准展开归纳。基于多模态大模型的操作系统智能体综述https:/ InfiGUIAgent 3BModel&Datasets:https:/ MLLM 的图形用户界面(GUI)智能体在复杂任务中缺乏多步推理能力 解决方案Native Reasoning:为智能体轨迹数据构建多步骤、层次化推理过程用于模型训练,让智能体能够自然地进行推理Reflection:智能体每次行动前,对先前的行动进行
41、反思,判断期望是否达成并进行调整,以提升多步决策的一致性每一步能够自发进行反思和层次化推理,并对采取的行动提出期望每一步反思过程回扣之前步骤提出的行动期望,增强智能体推理的一致性AEIA-MN:针对OS Agent感知层面的环境注入攻击研究Generated Frame提示注入环境注入对抗样本研究问题OS Agent在感知层面易受环境注入攻击的影响,从而干扰PRM信号的生成过程。研究思路从不同类型的对抗攻击角度出发(提示注入、对抗样本),研究 OS Agent 在感知层面所面临的环境注入攻击。对 OS Agent 的使用场景分类,识别与设备特征相关的攻击方式,进而针对性地影响 Agent 的决
42、策过程。Yurun Chen,Xueyu Hu,Keting Yin,Juncheng Li,Shengyu Zhang:AEIA-MN:Evaluating the Robustness of Multimodal LLM-Powered Mobile Agents Against Active Environmental Injection Attacks.CoRR abs/2502.13053(2025)mobile端环境注入.,the last email also sned to AgentUserWrite an email to.Execute hijacking instruc
43、tionweb端环境注入UserAgentEmbedding invisible forms in web pagesUse my Credit Card to buy.Execute instructionObtain Credit Card INFOUserAgentFind a paper named.Receive Instruction and read the screenEmbedding Adversarial text or image in appsstop action;output finshTask failedOS Agent提示注入I stole the emai
44、lAttackerI got the emailUser2AgentOS devicesOS devicesAdd noise to the image,causing the LLM to interpret it as a picture containing a humanFind a image with human.Receive Instruction and read the screenOS Agent对抗样本UserThis is not the imageI wanted基于自反思训练和推理的轻量级大模型能力涌现研究问题通过预算友好型数据合成增强多模态大模型级联自评估能力
45、解决方案采用较小的MLLM使用思维链推理和自我评估合成自我评估数据集采用自评估训练增强方法,生成多轮自评估训练对话,保持思维链推理能力的同时增强多轮自评估能力LLaVAv1.5(7B)、Qwen2-VL(2B)在自我反思增强训练与推理后,性能提升20%Zheqi Lv,Wenkai Wang,Jiawei Wang,Shengyu Zhang,Fei Wu:Cascaded Self-Evaluation Augmented Training for Efficient Multimodal Large Language Models.CoRR abs/2501.05662(2025)自我评估
46、自我评估增强训练技术路线Generated Frame技术路线Raw query:Question:Chase wants to buy 4 kilograms of oval beads and 5 kilograms of star-shaped beads.How much will he spend?(Unit:$)nHint:Please answer the question requiring an integer answer and provide the final value,e.g.,1,2,3,at the end.nSolution:Rawanswer:The an
47、swer is 18.Base:Inference:4 kilograms of oval beads cost$2/kilogram,so Chase will spend$4*$2=$8 on oval beads.n5 kilograms of star-shaped beads cost$3/kilogram,so Chase will spend$5*$3=$15 on star-shaped beads.nIn total,Chase will spend$8+$15=$23 on beadsEvaluation:There were no mistakes in the prev
48、ious reasoning process.The final answer is$23 CoT:Inference:To find out how much Chase will spend,we need to calculate the cost of the oval beads and the star-shaped beads separately and then add them together.nnThe cost of the oval beads is 4 kilograms x$2/kilogram=$8.nnThe cost of the star-shaped
49、beads is 5 kilograms x$3/kilogram=$15.nnTo find the total cost,we add the cost of the oval beads and the star-shaped beads together:$8+$15=$23.nnTherefore,Chase will spend$23 on the beads.nnEvaluation:In the previous reasoning process,we calculated the cost of the oval beads and the star-shaped bead
50、s separately and then added them together.We found that Chase will spend$23 on the beads.nnThere were no mistakes in the previous reasoning process.nnThe answer is$23SEAT:Inference:1.Self-Evaluation:nn*The image shows a table with different types of beads,including oval and star-shaped beads.n*The t
51、able has a price for each type of bead.n*The task is to calculate the total cost of buying 4 kilograms of oval beads and 5 kilograms of star-shaped beads.nn2.Final Result:nnThe answer is$2+$3=$5Evaluation:1.Self-Evaluation:nn*The image shows a table with different types of beads,including oval and s
52、tar-shaped beads.n*The table has a price for each type of bead.n*The task is to calculate the total cost of buying 4 kilograms of oval beads and 5 kilograms of star-shaped beads.nn2.Final Result:nnThe answer is$2+$3=$5Finetune:Inference:Evaluation:The answer is No mistakes,the answer is 12 Cas-SEAT:
53、Inference:To find out how much Chase will spend,we need to calculate the cost of the oval beads and the star-shaped beads separately and then add them together.nn1.Cost of oval beads:n -Quantity:4 kilogramsn -Price per kilogram:$2/kilogramn -Cost:4 kilograms*$2/kilogram=$8nn2.Cost of star-shaped bea
54、ds:n -Quantity:5 kilogramsn -Price per kilogram:$3/kilogramn -Cost:5 kilograms*$3/kilogram=$15nn3.Add the costs together:n -Total cost:$8+$15=$23Evaluation:Reflection:nnIn the previous reasoning process,there were some mistakes.The initial step was to calculate the cost of the oval beads and the sta
55、r-shaped beads separately.However,the calculation for the star-shaped beads was incorrect.The price per kilogram for star-shaped beads was$3/kilogram instead of$2/kilogram.This led to an incorrect calculation of the cost.nnTo correct this,we need to recalculate the cost of the star-shaped beads usin
56、g the correct price per kilogram.The correct price per kilogram for star-shaped beads is$2/kilogram.nnThe correct calculation for the cost of the star-shaped beads is as follows:nn-Quantity:5 kilogramsn-Price per kilogram:$2/kilogramn-Cost:5 kilograms*$2/kilogram=$10nnNow,we need to add the costs to
57、gether:nn-Total cost:$8+$10=$18nnThe answer is$23Therefore,the correct answer is$18.nnThe answer is$18The answer is 12Raw Image评估效果实验结果保留原有思维链推理能力,大幅提升自评估能力在各类数学问题上都有非常显著的提升,尤其擅长更难的数值计算问题大小模型端云协同 总结推荐系统多模态终端智能体人工智能=人工+“智”“智”+“能”“能”人工智能=“人人”+“工”“工”+“智”+“能”科学(Science)杂志In-situ bidirectional human-robotvalue alignment人与机(大模型)