毛航宇-强化学习(多)智能体 和 大语言模型(多)智能体.pdf

编号:630944 PDF 72页 9.82MB 下载积分:VIP专享
下载报告请您先登录!

毛航宇-强化学习(多)智能体 和 大语言模型(多)智能体.pdf

1、毛航宇 快手科技快意大模型知识增强研发负责人现就职于快手科技,快意大模型知识增强研发负责人,同时兼任智能交互团队负责人。主要关注Agent,RAG,Alignment,RL,LLM等技术,在ICLR及NeurIPS,ICML等CCF-A/B类会议和期刊上发表论文30余篇,申请国际、国内专利十余项,相关研究在企业场景落地并产生较大效益。曾担任上述国际会议的PC,Senior PC,Area Chair,中国数据挖掘会议(CCDM)的论坛主席,以及CCF多智能体学组的执行委员。本人和所带领的团队曾获全球数字经济大会“人工智能大模型场景应用典型案例”、国际人工智能会议NeurIPS强化学习竞赛冠军、

2、中国计算机学会“多智能体研究优秀博士论文奖”、北京市“优秀(博士)毕业生”、华为“创新先锋总裁奖”。演讲主题:从强化学习(多)智能体到大语言模型(多)智能体目录21.强化学习(多)智能体 到 大语言模型(多)智能体 十年研究脉络梳理2.强化学习(多)智能体 到 大语言模型(多)智能体 代表工作选讲 Deep RL Agent(DRL)Transformer-based RL Agent(TRL)LLM-based AI Agent3.企业实践中的心得体会Background:RL AgentsBackground:AI Agentshttps:/lilianweng.github.io/pos

3、ts/2023-06-23-agent/强化学习(多)智能体 和 大语言模型(多)智能体 十年研究脉络Deep RLDeep MARLNLPLLM AI AgentLLM AI Agents15 DRL Foundation15-2:DQN15-2:TRPO15-6:GAE15-9:DDPG16-1:AlphaGo17-7:PPO-16CommunicationCommNet/BiCNet/ACCNetATOC/IC3Net/Gated-ACML-17Transformer-18Novel PerspectiveRainbow DQNC51/QR-DQNEvolution StrategyMo

4、del-based RLScaling RLHierarchal RL(SEIHAI)Offline RLCTDE17:MADDPG/19:ATT-MADDPG18:VDN/QMIX21:IPPO/MAPPO22:PTDEBERT-19GPT-2-20Novel PerspectiveGrouping/Role/Graph/AttentionCognition Consistency(NCC-MARL)Permutation Invariant/EquivalentGPT-3-21TRL Foundation21-6:DT/TT22-5:Generalist Agent22-12:RT-1Pr

5、ompt Tuning-22MAT3-4:InstructGPT11-30:ChatGPT-23Novel Perspective22:Prompting DT22:Online DT22:Bootstrap Tran(BooT)23:Q-learning DT23:Hierarchical DT23:TIT/PDiTMADTLlama/Llama-2GPT-3.5/GPT-423-3-23:ChatGPT plugins(OpenAI)23-6-23:LLM Powered Agents(LilLog)Github Project:AutoGPT/BabyAGI23-8-7:TPTU 23-

6、8-22:Survey from Remin University23-9-14:Survey from Fudan University23-11-19:TPTU-2DS-Agent;Sheet/SQLAgent;ToolGen23:Generative Agents(斯坦福小镇)23:RecAgent/EconAgent23:ChatDev/ChatEval23:AgentGen/AgentVerse23:LlaMAC24:LLM Agent Operating System24:Internet of Agents24:Automated Design of Agentic24STEER

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(毛航宇-强化学习(多)智能体 和 大语言模型(多)智能体.pdf)为本站 (哆哆) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
客服
商务合作
小程序
服务号
折叠