《2019年超大规模深度学习在美团的应用.pdf》由会员分享,可在线阅读,更多相关《2019年超大规模深度学习在美团的应用.pdf(38页珍藏版)》请在三个皮匠报告上搜索。
1、超大规模深度学习在美团的应用美团点评用户平台研究员目录 美团超大规模模型场景简介 超大规模机器学习MLX MLX平台目标 MLX平台架构 模型场景应用 召回模型 排序模型目录 美团超大规模模型场景简介 超大规模机器学习MLX MLX平台目标 MLX平台架构 模型场景应用 召回模型 排序模型美团超大规模模型应用场景美团推荐美团搜索美团广告美团应用场景简介 场景特点亿级的用户,千万级的O2O商品海量的用户行为,完整的交易闭环LBS相关的推荐 模型特点百亿级别的训练数据千亿级别的模型特征秒级实时的模型反馈目录 美团超大规模模型场景简介 超大规模机器学习MLX MLX平台目标 MLX平台架构 模型场景
2、应用 召回模型 排序模型超大规模模型的有效性VC维理论描述模型的学习能力:VC维越大模型越复杂,学习能力越强机器学习能力=数据+特征+模型 数据 海量数据:美团的亿级用户、千万级POI 特征大规模离散特征 小规模泛化特征 模型DNN 树模型 LR美团超大规模模型应用场景 可扩展的机器学习架构基于Parameter Server架构数据并行 支持超大规模训练集模型并行 支持超大规模模型 业界千亿级以上的机器学习平台开源:PaddlePaddle、XDL,etc.内部:Abacus、XPS,etc.Online Learning的价值 用户的近期行为,更能表现意图和偏好 增强新item的模型感知能
3、力 更快数据反馈、更少资源消耗 分钟级的数据反馈 增量训练、避免batch重训带来的资源消耗关于Online LearningMLX的模型能力 支持千亿级特征、千亿级样本 支持计算图模式,模型结构灵活多样 支持推荐、搜索、广告场景常用的深度学习模型 FTRL、FM、FFM、WDL、DCN、DeepFM、MTL等 Optimizer FTRL、AdaGrad、AdaDelta、ADAM、AmsGrad、etc Loss Function LogLoss、SquareLoss、Cross Entropy、etc 评估指标 AUC、Loss、MAE、RMSE 支持外部eval工具,计算MAP、NDC
4、GMLX的模型能力 提供离线、近线、在线全流程解决方案,各阶段提供扩展方案,降低算法迭代成本;支持Online Learning,提供从近线到在线的模型数据通路;提供从召回到排序全流程的模型解决方案,为业务提供最佳实践;提供系统的平台化工具,为用户提供易用的界面操作;MLX模型能力MLX平台架构MLX平台架构 基于Worker+PS架构搭建 Worker模型计算引擎(Engine)计算图框架(Graph)模型计算引擎Engine模型结构处理与PS通信交换模型参数计算图的计算 计算图框架Graph计算逻辑抽象op,通过op组合形成模型结构提供正向(forward)、反向(backward)、Lo
5、ss的操作扩展模型训练框架 模型可变计算路径 运行阶段 计算图裁剪模型训练框架 应用场景离线预计算 模型召回,ANN检索 粗排模型,降低线上计算量 分布式Sharding模型分片存储,支持超大规模模型数据并行计算,加速Optimizer计算 低频特征过滤Counting Bloom Filter概率方式 模型数据通路Base+Delta方式增量提供ACK机制,确保模型正确性Parameter Server 模型数据的统一管理模型结构模型参数PS的参数放置策略 Ps分布式分片的均衡,避免分片大小不一致NN网络矩阵按行切分,解决请求包不均衡问题特征按照Hash方式分布式存储模型并行调超参grid
6、searchrandom searchPS的多模型训练 提高内存使用效率model group内共享特征key的存储 超大规模模型-高扇出的分布式PS 长尾效应:单个分片的抖动(网络、CPU)对请求影响变大单分片4个9的可用性16分片整体可用性:99.99%16=99.84%64分片整体可用性:99.99%64=99.36%128分片整体可用性:99.99%128=98.72%Backup RequestJeff Dean在解决BigTable高扇出时提出的方案PS的长尾效应Backup Request副本1副本2PS Shard 1副本1副本2PS S