当前位置:首页 > 报告详情

PAI-ChatLearn 灵活易用大规模RLHF高训练框架.pdf

上传人: 2*** 编号:149580 2023-12-18 17页 91.21MB

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文主要介绍了PAI-ChatLearn和RLHF的相关内容。PAI-ChatLearn是一种人工智能架构,而RLHF是Reinforcement Learning from Human Feedback的缩写,意为人类反馈的强化学习。文章中提到了一些核心数据,如Zero DP、FSDP、GPT3-175B、GPT4X、Megatron、Deepspeed、Vicuna等。此外,还提到了PAI-ChatLearn的初始化、定义模型、定义engine和数据集、开始训练、运行环境配置、模型配置、RLHF训练配置等关键步骤。最后,文章还涉及了Policy/Reference Model、Reward/Value model、Inference等方面的内容。
"PAI-ChatLearn技术详解" "RLHF训练配置揭秘" "DeepSpeed-Chat性能分析"
客服
商务合作
小程序
服务号
折叠