当前位置:首页 > 报告详情

程孟力-EasyRec 推荐算法训练推理优化.pdf.pdf

上传人: 张** 编号:169091 2024-07-06 29页 4.24MB

1、DataFunSummitDataFunSummit#20242024EasyRec推荐算法训练推理优化程孟力-阿里云-高级算法专家EasyRec训练推理架构EasyRec推理优化EasyRec训练优化Online Learning目录 CONTENTDataFunSummitDataFunSummit#2024202401EasyRec训练推理架构推荐模型的趋势和挑战趋势:特征越来越多:200 2000,大部分是交叉特征 Embedding越来越大:bfloat16 saves 50%memory;bfloat16对auc基本没有影响;tensorflow native bfloat16 t

2、o float is too slow;fp32bfp16bfp16_embedint8_embedis_valid_play_auc0.90080.90080.90080.8964is_like_auc0.95630.95630.95630.9463is_comment_auc0.92830.92830.92830.9154ln_play_time_mse0.88720.8870.88720.9007ln_play_time_mae0.58410.58420.58410.5939#define BF16_TO_FLT(ptr)_m128i fp16_i=_mm_loadu_epi16(voi

3、d const*)ptr);_m256i fp32_i=_mm256_cvtepu16_epi32(fp16_i);fp32_i=_mm256_slli_epi32(fp32_i,0 x10);vx256=(_m256)fp32_i;EasyRec推理优化:FeatureGenerator AVX StringSplit优化:HashMap优化:MurmurHash CrcHash(avx)XorHash(avx)RT(t99):-5%Fg算子化(tensorflow op):并行执行 复用tensorflow线程池 Overlap Execution 节省数据序列化开销RT(tp99):-2

4、0%QPS+20%SequenceFeature优化:item feature cache packed storage:-80%memoryEasyRec推理优化:FeatureGeneratorEasyRec推理优化:FeatureTileFind candidatesSelectConcatSort by DepthIsTiledTileYN Qps+(30%-50%)EasyRec推理优化:Placement优化EmbeddingDenseCPU:GPU:op数目多单个op计算量小kernel launch开销 op执行的时间(1-10微秒)(5-10微秒)MatMul计算量大op执行

5、的时间 kernel launch的开销 (100-2000微秒)Kernel Launch:H2D Memcpy:Find Min-CutSplitVInputEmbedding LookupLinearLinearLinearLinearConcatMLPCTRMin-CutEasyRec推理优化:XLA dense layer optimizationMarkForCompilationPassEncapsulateSubgraphsPassBuildXlaPassXlaCompilerAutoClusterTF2XlaNVPTXCompilerXla2CudaDynamic shape

6、 rt毛刺,编译cache溢出 服务pod启动时间长解决方法Warmup+AsyncCompileBucketize+PaddingPersistent CacheFuse elementwise operations:relu,batch_norm,sigmoid,XlaRunXlaAlignXlaSliceEasyRec推理优化:TRT(dense layer optimization)MatMulBatchNormAddGPU:op fusion to reduce kernel launchReshapeInput TensorCastBatch

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
EasyRec是一个由阿里巴巴开发的推荐算法框架,旨在解决大规模在线推荐系统中的训练、推理和优化问题。文章主要内容包括: 1. EasyRec训练推理架构:介绍了EasyRec的训练推理架构,包括输入数据、嵌入层、深度模型、输出层等组成部分,以及训练和推理过程中面临的挑战,如特征增多、嵌入大小增长、序列长度增加和密集层复杂度提升等。 2. EasyRec训练优化:讨论了EasyRec训练过程中的优化方法,如UniqueSequence优化、Embedding并行计算、Dense参数优化等,以及使用MMoE + PPNet模型和DIN + CTR模型时的训练速度提升。 3. EasyRec推理优化:阐述了EasyRec推理过程中的优化策略,包括Embedding Op Fusion、bf16优化、FeatureGenerator优化、Placement优化、XLA密集层优化、TRT推理优化和auto_batch批处理优化等。 4. EasyRec在线学习:介绍了EasyRec在线学习的方法和应用场景,如新品上架和大促活动等,以及在线学习过程中的特征一致性、稳定性优化和实时特征处理等。 5. 性能数据:文中提供了EasyRec在不同场景下的性能数据,如电商场景下人均GMV提升10%,点击率提升10%,结合GPU推理优化降低50%成本等。 6. 参考文献:文章还提供了EasyRec相关文档和资源的链接,包括EasyRec文档、github、PAI-FeatureStore、PAI-Rec等。 综上所述,EasyRec是一个功能强大、适用于大规模在线推荐系统的推荐算法框架,通过多种训练和推理优化方法,提高了推荐模型的性能和效率。
"EasyRec如何优化推荐算法训练与推理过程?" "如何通过EasyRec实现高效的在线学习和实时推荐?" "EasyRec在工业界的应用案例及其效果如何?"
客服
商务合作
小程序
服务号
折叠