李健-京东广告训练推理场景GPU优化实践.pdf

编号:168964 PDF 19页 1.92MB 下载积分:VIP专享
下载报告请您先登录!

李健-京东广告训练推理场景GPU优化实践.pdf

1、DataFunSummit#2024京东广告稀疏大模型训练与推理GPU优化实践演讲人-李健-京东-算法应用工程师岗01京东广告场景介绍03京东广告推理场景GPU优化实践02京东广告训练场景GPU优化实践04总结目录CONTENTDataFunSummit#202401京东广告场景介绍京东广告场景介绍京东广告算法场景浅层DNN-深层DNN参数规模:百GB-TB算力需求指数型增长京东广告业务场景面向C端用户:毫秒级低延时响应、99.99%高稳定可用率流量规模:百万QPS高并发访问数据规模:亿级别用户、数十亿商品京东广告推理训练框架算子级建模,灵活,迭代迅速离在线一致性GPU应用难点模型稀疏性高,I

2、O易瓶颈显存有限且昂贵,难以承载大规模稀疏参数CPU密集与GPU密集相结合的模型场景,资源分配不均衡推荐搜索DataFunSummit#202402京东广告训练场景GPU优化实践京东广告训练场景GPU优化实践GPU应用难点存储挑战:TB级别参数规模,GPU显存难以承载 CPU稀疏参数服务器+多机多卡训练范式计算挑战:特征计算网络算力(CPU)消耗巨大,算力分配不均 CPU+GPU的异构分布式流水线并行训练架构IO挑战:大规模稀疏参数训练IO占比超30%,GPU利用不充分 基于GPU-HBM和CPU-DRAM的二级参数服务器 五级分布式流水线京东广告训练场景GPU优化实践存储CPU稀疏参数服务器

3、+多机多卡训练范式参数的存储与同步:稀疏参数:分片 稠密参数:复制参数通信 卡间通信:nvlink 跨机通信:infiniteband 参数服务器通信:PCIE京东广告训练场景GPU优化实践计算CPU&GPU异构分布式流水线并行训练模型分图计算:模型结构与硬件资源最大化匹配异构部署 分摊IO CPU与GPU资源分配均衡集群资源利用率拆图前CPUGPU拆图后100%模型分图计算计算图分布并行执行80%60%40%20%计算图拆分特征计算网络CPU密集型模型计算网络GPU密集型完整计算网络京东广告训练场景GPU优化实践IO基于GPU-HBM与CPU-DRAM的二级参数服务器GPU-HBM参数服务器

4、 高吞吐CPU-DRAM参数服务器 易扩展 FusedAdamOptimizer 算子融合,优化显存访问次数京东广告训练场景GPU优化实践IO五级分布式流水线特征计算&模型训练异构分布式部署CPU&GPU算力均衡分摊IO特征数据HtD预传输IO&训练并行自动插入&识别聚合传输&零拷贝DataFunSummit#202403京东广告推理场景GPU优化实践京东广告推理场景GPU优化实践GPU应用难点推荐场复杂性:商品排序队列长度不一,部分队列较短请求拉低整体GPU利用率 TensorBatch低延时高并发的推理场景:高吞吐的GPU计算资源如何适配 GPU多流计算模型建模复杂:模型中上千个算子节点难

5、以被调度 深度学习编译器京东广告推理场景GPU优化实践TensorBatch常规Batch方案 目标:最大化吞吐 只考虑推理样本数 无法适应广告场景广告推荐场TensorBatch方案 目标:最大化吞吐与最优化延时 考虑维度延时排序队列长度(样本数)用户行为序列长度=+:单请求计算消耗 :用户兴趣建模计算消耗 :广告建模计算消耗:用户行为长度:广告排序队列长度京东广告推理场景GPU优化实践多流计算TensorFlow推理模式 GPU单计算通道,算子串行执行 缺少处理并发请求的能力多流计算框架 Multi Cuda Stream:支撑并发计算 Multi Cuda Context:支撑并发调度

6、Multi CPU Processes:减少上下文切换损耗京东广告推理场景GPU优化实践深度学习编译器推荐场模型特点 多样化的用户兴趣建模有助于提升效果 模型结构分支多,算子粒度细,GPU KernelLaunch消耗大深度学习编译器 算子自动融合、计算图优化 仅支持静态维度,不适用于复杂特征场景的推荐领域 运行时编译耗时长(秒级),不满足毫秒级延时需求扩展深度学习编译器 深度学习编译器分图分桶预编译技术 深度学习编译器异步编译技术京东广告推理场景GPU优化实践扩展深度学习编

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(李健-京东广告训练推理场景GPU优化实践.pdf)为本站 (张5G) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
客服
商务合作
小程序
服务号
折叠