《2020年终大会-推荐算法:3-4.pdf》由会员分享,可在线阅读,更多相关《2020年终大会-推荐算法:3-4.pdf(25页珍藏版)》请在三个皮匠报告上搜索。
1、算力效能技术体系阿里定向广告阿里妈妈定向广告算法效能团队姜碧野年终大会2020DATAFUNTALK#page#Alibaba GroupCA算力效能优化背景深度模型的选代带来业务提效,但算力需求也在成倍增长算力供给增长放缓,“付费”的算力红利难以为继算力42020需求2CAN2019以SIM2018.QDIEN2017O2015DINOMLR效果增长ZhouetalDeep Interest Network forclick-through rate predictionZhou etal,DeepInterestEvolution Network for click-throughrate
2、 prediction定向广告团队的模型送代路径PietalSearch-based UserInterest Modelingwith Lifelong Sequential BehaviorData年化算力增长23倍Wanget alCOLD:TowardstheNextGeneration ofPre-Ranking SystemZhou et al,CAN: Revisiting Feature Co-Action for Click-Through Rate Prediction#page#算力效能优化技术发展路径效能3.0全局优化效能2.02020-结合业务极致优化2019-1效能
3、1.0系统整合算法优化全局调优寻求特解2017-算法工程Co-Design模型去几余纯工程优化权衡效果与性能Kernel优化目标:依托有限资源,撬动最优业务收益计算图优化#page#Alibaba Group阿里巴巴集团效能1.0:算法优化#page#Alibaba GroupCD从工程优化到算法优化工程优化侧重优化模型的执行过程,算法优化需要优化模型本身找到高性价比的模型结构,权衡效果与性能优化数值精度低精度Embedding,低精度计算个测试集效果优化模型大小最优模型特征剪枝,模型剪枝Overfitting优化模型结构提高模型Op精简效能参数大小权衡效果与性能#page#Alibaba G
4、roup优化数值精度TURIN收益:降低存储、减少访存、利用TensorCore/NPU加速图像CNN模型广告推荐模型INT8普遍应用FLOAT16为主RGB像素,长宽固定离散特征,长尾明显Linear Log数值压缩在容易超出Sum poolingFP16范围7-log(-x)-1x1Embedding TableIDID.ID数值压缩:无参normalization简单DNN模型性能提升100%+,复杂模型约40%#page#Alibaba GroupCA优化模型大小对模型进行裁剪,在给定精度要求下,尽可能降低算力消耗如何定义算力消耗?算力消耗FLOPS稀疏矩阵与稠密矩阵差别很大性能收益往
5、往需基于压测工具实测数据剪枝方案:对FCLayer神经元个数进行裁剪。服务能力提升20%30%基于End2Endloss训练优化神经元的权重系数入,权重小的被移除直接产出模型结构minw.NL(yi,C(xi,W,入)+R(w)+R()W#page#Alibaba GroupEL优化模型结构模型持续选代,模型结构容易存在几余定向广告精排模型主要OP:GRU:串行计算耗时较大,随着提效和GPU硬件的发展,性价比变低多路Attention:序列长度边际效应递减c5Aof.batehdon1batchdot4.2catch.EL34优化低性价比模块得到降级模型,同等算力提升rpm收益#page#Al
6、ibaba Group阿里巴巴集团效能2.0:结合业务极致优化#page#Alibaba GroupC力从通用优化到极致优化传统模型优化往往是通用优化,难以优化到极致通用引擎专用引擎VS.算法-工程Co-Design广告模型:对离散ID预估的高维稀疏模型XDL-BlazeTensorFlow使用场景确定、系统约束确定深入挖掘业务/系统特性可找到优化空间服务所有场景服务特定业务CV/NLP/RL#page#Alibaba GrouCaseStudy:平衡Latency与系统吞吐在线服务对Latency要求极高,大量使用并行化使用GPU价格昂贵候选集拆包服务级拆包并行带来额外计算减小单包batch