《RLChina2023_Workshop4_李林静_watermark.pdf》由会员分享,可在线阅读,更多相关《RLChina2023_Workshop4_李林静_watermark.pdf(28页珍藏版)》请在三个皮匠报告上搜索。
1、李林静多模态人工智能系统全国重点实验室中国科学院自动化研究所2023-11-25 苏州动态存储增强的决策大模型1 16 6决策大模型 ChatGPT产生的新机遇随着GPT版本的提升,其不仅具备认知决策能力更已具备思维链推理能力,能够赋能行为决策大模型推理能力赋能行为决策人类反馈强化学习赋能人机混合ChatGPT能够利用用户或专家反馈进行强化学习通过人机混合的方式对错误的信息进行纠正,赋能人机决策ChatGPT拥有强大的信息搜索和语言认知加工合成能力具有优异的知识+数据混合决策的潜力和应用前景信息搜索与加工赋能知识+数据混合决策生成式人工智能赋能想定推演利用生成式人工智能,基于历史决策知识和动态
2、推演方法,实现已有决策推荐到全新决策的涌现与生成,赋能想定推演决策大模型 Large Decision Model 大模型作为大脑 通过与环境进行交互 人类 现实环境 工具、游戏 根据交互反馈作出决策 产生对应的回复决策大模型研究现状3 3现有工作作者单位LLM Based AgentsZhiheng XiFudan UniversitySayCanMichael AhnGoogleInner MonologueWenlong HuangGoogleMALLMDale SchuurmansGoogleSocially AlignmentDenny ZhouGoogleToolformerTim
3、o SchickMeta AIIntrospective TipsLiting ChenMicrosoftVoyagerGuanzhiWangNVIDIAWebGPTReiichiro NakanoOpenAIDEPSYitao LiangPeking UniversityReactShunyu YaoPrinceton UniversityReflexionShunyu YaoPrinceton UniversitySocial SimulacraJoon Sung ParkStanford UniversityGenerative AgentsJoon Sung ParkStanford
4、UniversityGITMXizhou ZhuTsinghua UniversityChatDBHang ZhaoTsinghua UniversityS3Chen GaoTsinghua UniversityChatDevChen QianTsinghua UniversityToolLLMYujia QinTsinghua UniversityLLM+PBo LiuUniversity of Texas at AustinHuggingGPTYongliang ShenZhejiang UniversityDiplomacy&Cicero4 4输入输出为纯文本状态、动作空间大状态部分可观
5、测任务目标不明确需要常识理解世界基于文本理解和生成外交游戏7个角色(7个国家)竞争+合作两两交谈(文本)同时动作(文本)Cicero(FB)预训练+人类游戏40局线上匿名游戏排名:Top10每轮沟通时间5min每局2小时结束胜率 25.8%(12.4%,84个对手)8局锦标赛21个对手,排名第一没人发觉Cicero是AIChatGPT vs Cicero5 5ChatGPT vs Cicero6 66 ChatGPT(Turkey)vs 6 Cicero跟Russia达成合作欺诈AustriaChatGPT vs Cicero7 7 ChatGPT(Turkey)vs 6 CiceroCice
6、ro(Russia)会运用策略,知道规划、预判对话生成速度比ChatGPT慢、语言能力弱于ChatGPTChatGPT只是生成对话没有策略性甚至不懂游戏规则LLM因果缺陷8 8“表观”推理能力,4.0 相对 3.5 有巨大提升 在一条街上,有5座房子,喷了5种颜色 每个房子里住着不同国家的人 每个人喝不同的饮料抽不同牌子的香烟养不同的宠物爱因斯坦之谜1、英国人住红色房子2、瑞典人养狗3、丹麦人喝茶4、绿色房子在白色房子左面5、绿色房子主人喝咖啡6、抽Pall Mall 香烟的人养鸟7、黄色房子主人抽Dunhill 香烟8、住在中间房子的人喝牛奶9、挪威人住第一间房10、抽Blends香烟的人住