当前位置:首页 > 报告详情

温颖-基于强化反馈的大模型自我提升与推理增强.pdf

上传人: 哆哆 编号:631118 2025-04-19 59页 23.32MB

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
根据报告的内容,本文主要概括了以下几个关键点: 1. 温颖,上海交通大学人工智能学院长聘教轨副教授,他的研究方向涉及多智能体学习、强化学习及博弈论在其中的应用。 2. 演讲主题:基于强化反馈的大模型自我提升与推理增强。介绍了强化学习(RL)是一种寻找高奖励策略的方法,奖励定义了给定动力学下的最优状态和动作分布。 3. 介绍了AlphaZero-like树搜索框架用于LLM推理增强,以及通过树搜索算法帮助语言模型训练。 4. 提出了OpenR:一个开源的推理框架,通过整合测试时计算、强化学习和过程监督来提升大语言模型(LLM)的推理能力。 5. 探讨了如何通过多智能体强化学习来培养LLM的元思维模式,以及语言游戏在培养不同行为方面的潜力。 6. 提出了语言游戏作为通往人工超人类智能(ASI)的途径,通过扩展和多样化训练数据,打破“数据复制陷阱”。
强化学习如何提升大模型推理能力? 多智能体强化学习如何优化语言模型? 语言游戏如何助力大模型迈向人工超人类智能?
客服
商务合作
小程序
服务号
折叠