1、DataFunSummit#2024京东广告稀疏大模型训练与推理GPU优化实践演讲人-李健-京东-算法应用工程师岗01京东广告场景介绍03京东广告推理场景GPU优化实践02京东广告训练场景GPU优化实践04总结目录CONTENTDataFunSummit#202401京东广告场景介绍京东广告场景介绍京东广告算法场景浅层DNN-深层DNN参数规模:百GB-TB算力需求指数型增长京东广告业务场景面向C端用户:毫秒级低延时响应、99.99%高稳定可用率流量规模:百万QPS高并发访问数据规模:亿级别用户、数十亿商品京东广告推理训练框架算子级建模,灵活,迭代迅速离在线一致性GPU应用难点模型稀疏性高,I
2、O易瓶颈显存有限且昂贵,难以承载大规模稀疏参数CPU密集与GPU密集相结合的模型场景,资源分配不均衡推荐搜索DataFunSummit#202402京东广告训练场景GPU优化实践京东广告训练场景GPU优化实践GPU应用难点存储挑战:TB级别参数规模,GPU显存难以承载 CPU稀疏参数服务器+多机多卡训练范式计算挑战:特征计算网络算力(CPU)消耗巨大,算力分配不均 CPU+GPU的异构分布式流水线并行训练架构IO挑战:大规模稀疏参数训练IO占比超30%,GPU利用不充分 基于GPU-HBM和CPU-DRAM的二级参数服务器 五级分布式流水线京东广告训练场景GPU优化实践存储CPU稀疏参数服务器
3、+多机多卡训练范式参数的存储与同步:稀疏参数:分片 稠密参数:复制参数通信 卡间通信:nvlink 跨机通信:infiniteband 参数服务器通信:PCIE京东广告训练场景GPU优化实践计算CPU&GPU异构分布式流水线并行训练模型分图计算:模型结构与硬件资源最大化匹配异构部署 分摊IO CPU与GPU资源分配均衡集群资源利用率拆图前CPUGPU拆图后100%模型分图计算计算图分布并行执行80%60%40%20%计算图拆分特征计算网络CPU密集型模型计算网络GPU密集型完整计算网络京东广告训练场景GPU优化实践IO基于GPU-HBM与CPU-DRAM的二级参数服务器GPU-HBM参数服务器
4、 高吞吐CPU-DRAM参数服务器 易扩展 FusedAdamOptimizer 算子融合,优化显存访问次数京东广告训练场景GPU优化实践IO五级分布式流水线特征计算&模型训练异构分布式部署CPU&GPU算力均衡分摊IO特征数据HtD预传输IO&训练并行自动插入&识别聚合传输&零拷贝DataFunSummit#202403京东广告推理场景GPU优化实践京东广告推理场景GPU优化实践GPU应用难点推荐场复杂性:商品排序队列长度不一,部分队列较短请求拉低整体GPU利用率 TensorBatch低延时高并发的推理场景:高吞吐的GPU计算资源如何适配 GPU多流计算模型建模复杂:模型中上千个算子节点难
5、以被调度 深度学习编译器京东广告推理场景GPU优化实践TensorBatch常规Batch方案 目标:最大化吞吐 只考虑推理样本数 无法适应广告场景广告推荐场TensorBatch方案 目标:最大化吞吐与最优化延时 考虑维度延时排序队列长度(样本数)用户行为序列长度=+:单请求计算消耗 :用户兴趣建模计算消耗 :广告建模计算消耗:用户行为长度:广告排序队列长度京东广告推理场景GPU优化实践多流计算TensorFlow推理模式 GPU单计算通道,算子串行执行 缺少处理并发请求的能力多流计算框架 Multi Cuda Stream:支撑并发计算 Multi Cuda Context:支撑并发调度
6、Multi CPU Processes:减少上下文切换损耗京东广告推理场景GPU优化实践深度学习编译器推荐场模型特点 多样化的用户兴趣建模有助于提升效果 模型结构分支多,算子粒度细,GPU KernelLaunch消耗大深度学习编译器 算子自动融合、计算图优化 仅支持静态维度,不适用于复杂特征场景的推荐领域 运行时编译耗时长(秒级),不满足毫秒级延时需求扩展深度学习编译器 深度学习编译器分图分桶预编译技术 深度学习编译器异步编译技术京东广告推理场景GPU优化实践扩展深度学习编