当前位置:首页 > 报告详情

崔淦渠-PRIME:结合隐式过程奖励的大模型强化学习.pdf

上传人: 哆哆 编号:631096 2025-04-19 49页 15.51MB

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
崔淦渠,上海人工智能实验室青年科学家,在清华大学计算机系获得博士学位,导师为刘知远副教授。他的研究方向是大语言模型的对齐与强化学习技术。他在国际人工智能顶级会议与期刊上发表论文十余篇,谷歌学术引用超8000次。 在2025全球机器学习技术大会上,崔淦渠以“PRIME: 结合隐式过程奖励的大模型强化学习”为主题进行演讲。他提出了一种新的强化学习方法,即隐式过程奖励模型(Implicit PRM),通过将奖励表示为对数似然比,从而无需显式定义步骤和过程奖励,即可获得过程奖励。这种方法在样本效率和性能上优于传统的基于结果的奖励模型。 他还介绍了一种名为PRIME的算法,该算法将隐式过程奖励模型整合到强化学习中,通过在线提示过滤和稳定训练过程,提高了模型的性能。实验表明,与结果奖励相比,过程奖励更加样本高效,并且在测试集上表现更佳。 最后,崔淦渠提出了未来的研究方向,包括在语言、图像、视频等领域应用隐式过程奖励模型,以及探索在更广泛的环境中,如游戏、数学、编码等领域中的应用。
如何看待结合隐式过程奖励的大模型强化学习?" "从DeepSeek-R1讲起,崔淦渠带你了解强化学习与隐式过程奖励的奥秘" 如何利用隐式过程奖励模型推动机器学习技术发展?"
客服
商务合作
小程序
服务号
折叠