《钟灵:高性能召回引擎在在线零售场景中的最佳实践-在线零售增长引擎技术分论坛(11页).pdf》由会员分享,可在线阅读,更多相关《钟灵:高性能召回引擎在在线零售场景中的最佳实践-在线零售增长引擎技术分论坛(11页).pdf(11页珍藏版)》请在三个皮匠报告上搜索。
1、高性能召回引擎在在线零售场景中的最佳实践钟灵(正鸿)阿里云计算平台事业部阿里巴巴AI平台 PAI典型的搜推链路EasyRec开源框架模型训练和部署阿里巴巴AI平台 PAI(Platform of Artificial Intelligence)MLFrameworksMLService(PaaS)AI Service(SaaS)机器学习框架(PAI-TensorFlow/PAI-PyTorch/Caffe/Alink etc)计算引擎(MaxCompute/EMR/实时计算)在线预测服务(EAS)一键部署高性能蓝绿部署弹性扩缩基础硬件(CPU/GPU/FPGA/NPU)阿里云容器服务(ACK)
2、可视化建模(Studio)近200种组件数十个场景化模版拖拽构建实验百亿特征样本交互式建模(Data Science Workshop)JupyterLab、WebIDE、Terminal大数据引擎深度结合多框架兼容自定义Image智能标注图像、视频、文本、语音标注多场景模板:图像检测、分割、综合标注数据集管理主动学习*智能预标注*智能生态市场Open API通用推理优化AI工具Alink-WebMNNSQL FlowAI SaaS服务(搜索推荐系统、OCR、语音识别、金融风控、视频类、新闻分类、疾病预测等)Deep Learning ContainerInfrastructure算法、模型A
3、I解决方案典型的搜推链路-品牌个性化-移动频道个性化-垂直业务-热卖User:访问序列相关性:i2i、Cate2iItem:实时/离线特征User:短期/长期特征实时计算(FLINK)实时特征计算数据清洗和实时样本生成实时用户和Item特征拼接新Item/新Item语义特征提取相似性查询Tag生成热门排行榜大数据计算平台(MAX COMPUTE)实时样本请求结果和特征各种i2iItem向量库User向量库机器学习/深度学习平台(PAI)协同过滤GDBT/FM/LRDeepFM/DSSMESMM/DBMTLWord2vec/BertERNIE生成模型Item Embedding召回引擎服务(AI
4、ME)排序:GBDT/DeepFM模型服务(PAI-EAS)召回:DSSM、MIND多路召回、曝光过滤粗排、精排策略(打散策略、新品曝光)日志:结果、实验信息推搜开发平台(TPP)实时采集后端日志实时采集后端日志曝光点击收藏评论等客户端用户请求结果存储(AIME/ABFS/iGraph)uid:stringage:integerprice:floatIdFeatureRawFeatureSeqFeatureKVFeatureDSSM MINDctrcvrdurationCrossEntropySmoothL1L2LossAUCAccuracyMSEMaxComputeTableHDFSKafk
5、aOSSOptimizer自动超参搜索知识蒸馏多样化输入组件化模型PAI-EasyRec算法框架超大规模分布式训练大规模稀疏特征分布式评估AdamAdaGradAdaDeltaModelZoo召回模型排序模型多目标模型重排序模型MultiTowerDeepFMDINDCNESMMMMoEDBMTL输入特征特征处理离在线一致目标PAI-EasyRec算法框架( TrainingEasyRec的主要功能和客户列表增量训练/自动调参自定义模型客户列表:当贝极光鲁大师魔筷科技票圈视频SigmobVV音乐伊对椰子传媒EasyRec的优势:丰富多样的特征 IdFeature:离散特征如user_id,it
6、em_id,类目,标签等特征 RawFeature:连续值特征如身高、体重、价格、历史点击率等,通常会做分箱离散化也支持word2vec,cnn和bert产生的embedding,做多模态训练,短视频、新闻推荐常用。TagFeature:多值特征如标签特征:健身、音乐、旅游等,电商、短视频推荐常用。ComboFeature:组合特征,如年龄+地域 LookupFeature:查找特征,如从user的访问列表中查询item MatchFeature:双层查找特征,根据类别和item进行两次查找 SequenceFeature:序列特征,用户行为建模必备(DIN/BST)。召回模型(Candida