1、性能提升7倍+的广告推荐训练系统的落地实践孔祥挺腾讯广告推荐系统技术专家Tencent腾讯#page#目录背景简介解决方案口架构设计口加速原理口性能测试口分布式训练解决方案口离线效果评估落地实践#page#背景简介-需求Q推荐NBA英超电竞升格你的伟大新朋友园系定制一东AUO1、在多流量的应用场景上下文中为海量用户提供30元精准的个性化广告推荐;2、助力广告营收高速增长;+关注哪个按钮,3-1还是2-2?apple校苹果阳T国店店S#page#背景简介-挑战广告排序包括召回、粗排和精排等阶段,每个阶段对模型更新13广告精排模型频率提出不同的要求(分钟级、小时级、天级更新)模型训练样本规模大(1
2、00亿+)100级广告粗排模型模型的快速调研和送代,对训练性能提出更高的要求召回模型1w级广告广告库100w级广告探索训练新模型加速3.探索新模型算法准确率更高3.已有线上模型准确率提升#page#背景简介-现状训练系统训练数据模型文件光2T退光CVR用户访问线上预估服务1、广告排序主要模型结构:深度学习DNN模型结构2、结构主体:embedding+mlp;Sigmoid3、性能瓶颈:召回模型、粗排模型采用Tensorflow作为训FC Output练系统的核心框架,但随着样本、特征规模不断增加以及CTR/CVR模型结构越来越复杂,性能瓶颈凸显模型训练FC Laye4、优化成本高:Tenso
3、rflow推荐模型优化难度大、收效小;用户向量上下文向量标签Labels广告特征用户特征上下文特征注册兴趣广告位G下载广告ID样本特征coo年龄0时间关注性别联网方式下单#page#解决方案-引入HugeCTR打造训练加速系统训练平台特征工程训练HugeCTRTensorflow样本特征生成特征仓库日志特征读取模型文件回流请求在线特征服务Serving预测打分播放平台返回在线服务特征处理用户请求#page#加速原理GPU1GPU2让更多运算下Jpda推到GPU中进行lossnaPDataGPU加速方案原理图TensorflowGPU方案原理图加速方案:让更多运算尽可能下推到GPU中完成1、在G
4、PU中实现Embedding表的相关功能:A、高维稀疏特征-低维稠密向量B、稀疏参数查询和更新C、特征排序、去重、计数2、将CPU中的参数求和、求平均及更新等相关OP的实现下推到GPU中实现#page#数据流pipeline实现一个计算节点内部data frommulti datamulti dataSyPureadingBusedGPU83Trainingparseddata queueraw data queue单节点内部使用流水线方式加速数据下载:从HDFS上下载数据到计算节点内存或者硬盘数据读取和解析:多线程方式从本地内存或磁盘读取数据并解析,存入队列Q1数据封装:多线程从队列Q1取出
5、数据,封装后放入队列Q2异步训练:训练线程每次从Q2队列中取出一个batch大小的数据块,放入GPU显存,进行训练读取、解析、封装、训练几个阶段异步进行,避免相互等待;流水线方式,实现训练线程零等待GPU运算:前向运算和反向运算均在GPU中完成,极大的提升运算速度#page#GPU方案性能测试,原训练框架:单机训练性能:4.5kW样本,100维特征+11维label中训练2轮耗时15分钟(10w样本/s)GPU方案:lossGPUV100单卡1训练2轮耗时1.07分钟单机性能比原框架精排模型提升14倍(140w样本/s)FCFC+ ReluFC+ Reluembedding+mlp精排模型#p
6、age#GPU方案单机性能极致追求训练一个送代各计算单元耗时占比:计算单元timeus)fp/bppercentage(%)计算单元timelus)fp/bppercentaget%)1830bp151cpt adam kernel16.71827bpoptadam kernel1746P14.4sgemm fc layer fp1785fp16.3sgemmfclayer_fp16601137bPsgemmfc_layer_bp1662bp15.212485gemmfclayer_bpbpvalue_count kemnel10981183bpbackward sum kernel1244b