毛航宇-强化学习(多)智能体和大语言模型(多)智能体.pdf-在线下载-三个皮匠报告

1、毛航宇快手科技快意大模型知识增强研发负责人现就职于快手科技，快意大模型知识增强研发负责人，同时兼任智能交互团队负责人。主要关注Agent,RAG,Alignment,RL,LLM等技术，在ICLR及NeurIPS,ICML等CCF-A/B类会议和期刊上发表论文30余篇，申请国际、国内专利十余项，相关研究在企业场景落地并产生较大效益。曾担任上述国际会议的PC,Senior PC,Area Chair，中国数据挖掘会议（CCDM）的论坛主席，以及CCF多智能体学组的执行委员。本人和所带领的团队曾获全球数字经济大会“人工智能大模型场景应用典型案例”、国际人工智能会议NeurIPS强化学习竞赛冠军、

2、中国计算机学会“多智能体研究优秀博士论文奖”、北京市“优秀(博士)毕业生”、华为“创新先锋总裁奖”。演讲主题：从强化学习(多)智能体到大语言模型(多)智能体目录21.强化学习(多)智能体到大语言模型(多)智能体十年研究脉络梳理2.强化学习(多)智能体到大语言模型(多)智能体代表工作选讲 Deep RL Agent(DRL)Transformer-based RL Agent(TRL)LLM-based AI Agent3.企业实践中的心得体会Background:RL AgentsBackground:AI Agentshttps:/lilianweng.github.io/pos

3、ts/2023-06-23-agent/强化学习(多)智能体和大语言模型(多)智能体十年研究脉络Deep RLDeep MARLNLPLLM AI AgentLLM AI Agents15 DRL Foundation15-2:DQN15-2:TRPO15-6:GAE15-9:DDPG16-1:AlphaGo17-7:PPO-16CommunicationCommNet/BiCNet/ACCNetATOC/IC3Net/Gated-ACML-17Transformer-18Novel PerspectiveRainbow DQNC51/QR-DQNEvolution StrategyMo

4、del-based RLScaling RLHierarchal RL(SEIHAI)Offline RLCTDE17:MADDPG/19:ATT-MADDPG18:VDN/QMIX21:IPPO/MAPPO22:PTDEBERT-19GPT-2-20Novel PerspectiveGrouping/Role/Graph/AttentionCognition Consistency(NCC-MARL)Permutation Invariant/EquivalentGPT-3-21TRL Foundation21-6:DT/TT22-5:Generalist Agent22-12:RT-1Pr

5、ompt Tuning-22MAT3-4:InstructGPT11-30:ChatGPT-23Novel Perspective22:Prompting DT22:Online DT22:Bootstrap Tran(BooT)23:Q-learning DT23:Hierarchical DT23:TIT/PDiTMADTLlama/Llama-2GPT-3.5/GPT-423-3-23:ChatGPT plugins(OpenAI)23-6-23:LLM Powered Agents(LilLog)Github Project:AutoGPT/BabyAGI23-8-7:TPTU 23-

6、8-22:Survey from Remin University23-9-14:Survey from Fudan University23-11-19:TPTU-2DS-Agent;Sheet/SQLAgent;ToolGen23:Generative Agents(斯坦福小镇)23:RecAgent/EconAgent23:ChatDev/ChatEval23:AgentGen/AgentVerse23:LlaMAC24:LLM Agent Operating System24:Internet of Agents24:Automated Design of Agentic24STEER

毛航宇-强化学习(多)智能体 和 大语言模型(多)智能体.pdf

毛航宇-强化学习(多)智能体 和 大语言模型(多)智能体.pdf

毛航宇-强化学习(多)智能体和大语言模型(多)智能体.pdf

毛航宇-强化学习(多)智能体和大语言模型(多)智能体.pdf