当前位置:首页 > 报告详情

黄世宇-OpenRL支持大模型训练的强化学习框架与大模型时代的PluginStore.pdf

上传人: 2*** 编号:142161 2023-09-10 61页 8.33MB

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文主要介绍了黄世宇,第四范式强化学习科学家,开源强化学习OpenRL Lab负责人。他毕业于清华大学计算机系,师从朱军和陈挺教授,并在CMU交换,师从Deva Ramanan教授。他的主要研究方向为强化学习,多智能体强化学习和分布式强化学习。他曾多次在ICLR、CVPR、AAAI、NeurIPS、Nature Machine Intelligence、ICML、AAMAS、Pattern Recognition等会议和期刊发表多篇学术论文。他领导开发的TiZero谷歌足球游戏智能体曾在及第平台上取得排名第一的成绩。黄世宇曾在腾讯AI Lab、华为诺亚、商汤、瑞莱智慧等工作。他还是OpenRL框架的创始人,该框架是一个开源的强化学习框架,具有友好的用户界面和高度可定制的能力。OpenRL框架支持离线强化学习,可以学习从交互和专家数据中。此外,OpenRL框架还支持大规模强化学习,可以处理大型模型、大型集群和大型种群。最后,他还介绍了OpenPlugin,这是一个用于大型语言模型(LLM)的插件,可以简化LLM的使用和分享。
"OpenRL框架有哪些主要特点?" "OpenPlugin插件如何简化LLM的使用和分享?" "黄世宇在强化学习和多智能体强化学习领域有哪些重要贡献?"
客服
商务合作
小程序
服务号
折叠