《云上企业级推荐系统实践 (6).pdf》由会员分享,可在线阅读,更多相关《云上企业级推荐系统实践 (6).pdf(23页珍藏版)》请在三个皮匠报告上搜索。
1、 计算平台部-钟灵 2023-4-21云上企业级推荐系统实践目录云上企业级推荐系统架构(PAI-REC引擎)推荐算法定制加快特征工程、排序模型的创建推荐系统在线服务的逻辑和性能优化开源算法框架EasyRec介绍和应用案例特征平台和推荐算法迭代PAI-Rec 推荐系统抽象架构图l 建模:特征与样本加工,离线模型的训练l 推理:离线模型应用,实时引擎推理l 预测:结合用户交互,预测推荐结果l 实验:定制推荐方案,迭代推荐效果根据推荐系统设计原理,划分为建模、推理、预测、实验等多个模块。推荐系统客户用到的阿里云具体产品(以新闻推荐为例)底层基础数据用户数据文章元数据数据加工存储(离线)用户/文章特征
2、工程数据集成小时周期导入训练(离线)视频元数据第三方画像RDS:MySQLNginx用户行为日志DatahubFlumeDRDS文章数据MaxComputeDW用户表文章表ODSDWD/DWSMaxCompute用户特征文章特征行为特征DW实时计算 FlinkETL行为序列实时特征DatahubPAI-Studio样本生成召回算法样本生成PAI-Studio排序算法Hologres用户/文章推荐列表在线推荐存储用户/文章特征用户向量PAI-EAS模型服务推理服务Hologres向量服务OSS中转Item向量模型文件推荐服务(在线)分表1:阅读历史MaxCompute分表2:阅读历史用户曝光请求
3、推荐模块多路召回曝光去重过滤排序查询K个最相似文章物料实时PAI-EASPAI-REC整体框架推荐算法定制加快特征工程、排序模型的创建推荐算法定制下的开发流程配置实验报表观察实验效果实验后的数据诊断任务商品表AutoFE(自动挖掘新特征)推荐算法定制产出召回、特征、粗排、精排等代码补数:准备特征和样本根据业务调整代码训练模型、调优AutoML调参数据ETL、产生基础表PAI-Rec对接召回、排序等数据Designer 部署联调测试测试特征一致性观察推荐效果是否符合预期日志埋点数据数据智能诊断分析数据问题和可用特征用户表用户行为表DataWorks部署FeatureStore管理特征数据准备离线
4、训练在线服务算法迭代调整特征和样本调整模型重新训练推荐算法定制案例:猜你喜欢(协同召回、向量召回、多目标排序)推荐系统在线服务的逻辑和性能优化LaRec Processor(定义EAS Processor)特征致性和在线推理优化PAI-Studio可视化建模PAI-EAS推理服务Dataworks统计分析特征模板训练样本生成配置生成EasyRec.config避免繁琐手工配置特征工程更新离散化配置Hologres存储特征存储I2i存储向量召回PAI-Rec推荐引擎和A/B服务引擎fg+EasyRec训练召回和排序模型fg:feature generator特征:tags、行为序列(DIN)、大
5、规模id embeddinga/b 服务可视化建模打分服务fg+tf模型联合部署Item特征动态更新到内存提高性能特征工程离线和在线一致部署模型打分召回分桶FG:主要生成组合特征(算子化,加快性能)分桶映射EasyRec 模型打分拼装Batch样本用于预测Item特征featureStoreCachePAI-EAS Processor(LaRec)Item特征HologresLoad推荐引擎PAI-REC推荐请求:用户特征、Item上下文特征(可传递实时特征)全量模型增量模型OSSLoad精排打分服务EasyRec Processor优化开源算法框架EasyRec的介绍和应用案例EasyRec
6、 算法框架uid:stringage:integerprice:floatIdFeatureRawFeatureSeqFeatureDSSM MINDctrduration自动超参搜索知识蒸馏大规模分布式训练大规模稀疏特征分布式评估AdamOptimizerAdaGradAdaDeltaDeepFMDINDCNESMMMMoEDBMTL多样化输入OSSMaxComputeHDFSKafukFeildDictFeatureGenerate召回模型排序模型多目标模型重排序模型EasyRec算法框架ModelZoooutput组件化模型CrossEntropy