当前位置:首页 > 报告详情

姜碧野-伯努利:结构化的工业级流式机器学习系统.pdf

上传人: 云闲 编号:101798 2021-09-01 24页 3.67MB

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文主要介绍了阿里巴巴妈妈团队开发的流式机器学习系统Bernoulli,该系统旨在满足互联网应用中的搜索、推荐和广告等核心应用需求。文章指出,深度学习在预测点击通过率(CTR)等方面得到了广泛应用,而模型更新分钟级别的速度至关重要。为此,Bernoulli系统采用了结构化设计,支持流式数据样本生成和特征提取,能够处理TB级别的数据,实现增量更新。系统基于实验驱动的设计,采用模块化训练,并能够高效地处理近线程排名任务。Bernoulli通过使用Flink(内部版本的Spark)作为基础架构,以及优化的硬件使用,解决了有限的资源预算和在线算力效能问题。文章详细描述了系统的设计架构,包括样本生成、训练和服务阶段,并强调了其在处理用户行为序列、特征实验和模型实验等方面的强大能力。此外,Bernoulli能够支持不同业务场景的数据融合,并通过近线程排名提高推理效率,适用于预排名阶段。总之,Bernoulli是一个为工业级机器学习任务设计的高效、灵活的流式系统。
"工业级流式机器学习系统的设计要点是什么?" "如何通过流式数据实现快速的用户行为预测?" "在有限资源预算下,如何进行实验驱动的工业机器学习系统设计?"
客服
商务合作
小程序
服务号
折叠