1、微博机器学习平台实践目录 微博 业务实践 微博机器学习平台规模机器学习规模深度学习机器学习作流平台效果Feed机器学习排序微博微博微博中国领先的社交媒体平台中国领先的社交媒体平台1.65亿日活跃用户DAU月活跃用户MAU移动月活占比92%3.76亿微博微博微博中国领先的社交媒体平台中国领先的社交媒体平台博文发布总量2600亿视频发布总量6.2亿直播总场次数8700万微博微博微博中国领先的社交媒体平台中国领先的社交媒体平台优质用户普通用户优质内容关注内容理解微博用户体量大算法模型多样化用户间关系纷杂微博内容体量大特征维度巨大业务场景多样性特征类别多业务场景复杂近百亿级别特征维度近万亿级别样本量高
2、频访问微博内容数据多样(文本、图片、音频、视频,等)开发流程冗长业务程序依赖多计算框架多样性hive,Hadoop,spark,tensorflow,storm,执行性能差长期迭代调优流程无标准,沟通效率低系统运行门槛高大数据平台化大规模标准化Feed,热门,用户增长,反垃圾,LR,SVM,GBDT,CNN,机器学习深度学习重复建设成本人力成本微博机器学习平台平台数据算法计算微博机器学习平台 算法 机器学习工作流 大规模机器学习 大规模深度学习微博机器学习平台-规模机器学习 大规模机器学习 微博实践证明:机器学习规模越大,效果越好几百特征,千万样本CTR:+4.3%人均刷新:+0.1%几万特征
3、,几十亿样本CTR:+11.2%人均刷新:+2.1%几百万特征,几百亿样本CTR:+12.2%人均刷新:+4.2%规模:几千亿样本、几十亿特征 Hadoop:MapReduce Spark:RDD、MLLib 参数服务器WeiPS:解决样本和特征规模化问题微博机器学习平台-规模机器学习 参数服务器WeiPS-架构 参数存储:分布式 同步控制:ASP/BSP/SSP 容灾机制:Checkpoint/多副本 功能扩展:psFunction支持简单运算和分布式向量运算微博机器学习平台-规模机器学习 参数服务器WeiPS-算法 ASGD L-BFGS OWL-QN FTRL微博机器学习平台-规模机器学
4、习 参数服务器WeiPS-优化 PS sever count Batch size Msg 序列化方式 参数同步比例微博机器学习平台-规模深度学习 大规模深度学习 深度学习平台分层架构硬件(GPU/FPGA/)调度(K8s/Mesos/Yarn/)框架(Tensorflow/Caffe/Kaldi/)模型(DNN/CNN/RNN/)应用(人脸识别/CTR/)基础库(CUDA/CuDNN/NCCL/)微博机器学习平台-规模深度学习 大规模深度学习-调度 Tensorflow on K8S相对成熟MPI灵活配置微博机器学习平台-规模深度学习 大规模深度学习-框架 Tensorflow on MPI
5、10亿样本/小时20亿样本/小时100+亿样本/小时8亿样本/小时版本TF1.1TF1.1TF1.4TF on MPI优化方向IO优化IO优化通信优化通信优化主要内容引入pydoop多进程替换多线程grpc版本升级MPI替换gprc引入NCCL2支持多GPU通信微博机器学习平台-机器学习作流 机器学习工作流 标准化 机器学习工作流框架WeiFlow模型部署原始数据特征处理模型预测样本生成特征处理模型训练数据传输模型评估业务评估微博机器学习平台-机器学习作流 机器学习工作流框架WeiFlow 兼容异构环境 统一数据计算框架nodenodenodenodehivetensorflowsparkinputprocessoutputTextCsvLibsvmParquetOrcJson数据统计数据清洗特征组合样本采样模型训练模型评估模型部署微博机器学习平台 平台效果效果效率成本微博机器学习平台 平台效果特征工程模型开发业务上线建设平台(主FEED流)接入平台(热门微博)特征工程模型开发业务上线83%人力成本87%时间成本80%机器成本业务实践 Feed机器学习排序微博微博FeedFeed FeedFeed流流-主信息流主信息流本短视频图片长问答业务实践 Feed机器学习排序?2?9?9?9?1?:?WeiFlow?谢谢!