《2-2 OpenMLDB:开源实时特征计算全栈解决方案.pdf》由会员分享,可在线阅读,更多相关《2-2 OpenMLDB:开源实时特征计算全栈解决方案.pdf(32页珍藏版)》请在三个皮匠报告上搜索。
1、开源机器学习数据库 OpenMLDB:线上线下一致的生产级特征计算平台第四范式(北京)技术有限公司Copyright 2021 4Paradigm All Rights Reserved.2022 年 4 月卢冕OpenMLDB 研发负责人,第四范式系统架构师About Me2!-!#$OpenMLDB%&()-*+,-./0123456789:;78()-?ABCDEFGHI=J.目录31.!#$%&()*+,-./02.OpenMLDB1232456)789-.:;?ABCDEF1.AI 工程化落地的数据和特征挑战4正确、高效的 AI 数据和特征供给成为数据侧的新挑战95%!#$%&()*
2、Source:How to Operationalize Machine Learning and Data Science Projects,Gartner AIMLOps 的完整生命周期DataOps()+,()-.FeatureOps/01234 12-.567ModelOps 89:;?ModelOps 0A BC()DEFeatureOps F!1234 12GHDataOps F!()EIJ F!KLProductionOpsMNOPNQRSPTUVWPF!XY!#$%&KLMNKLMNOPQROPQR应用背景:决策类场景基于时序数据的特征工程-!#$%&()*+,-./01&-基
3、于时间窗口的聚合函数开发场景:满足生产级上线需求的实时推荐系统userdatesearching!2022.1.15#$%F!Z12user过去三个月30-35岁顾客买的前三畅销洗衣机小李当天浏览过的洗衣机平均价格小李半小时内浏览过的洗衣机优惠力度最大的型号小李1.Samsung WW75TA046TE2.Bosch WAJ20180SG3.Panasonic NA-V11FX2LSG3000Bosch WAJ20180SGO()_()a()+F!1234业务需求 特征实时计算,满足延迟 20 ms!#$%&()*+,实时特征抽取线上服务工程化团队Database/C+线上预估服务实时特征离线
4、特征抽取离线开发数据科学家Python/SparkSQL线下模型训练离线12特征计算平台开发到上线全生命周期9计算逻辑一致性校验-.:;=-.:;=线上线下不一致性可能的原因!#$%&()!#$%&()*+,-%./0*+,-%./0Account Balance0*bO0*bOcurrent“account balance”/0cd/0cd“account balance”as of yesterday/0cd/0cd0*bO0*bO线上线下一致性校验带来的高昂工程化落地成本两套系统的开发!#两组不同技能栈的开发人员投入对齐+!1234123415671567特征计算平台工程化解决方案1%!
5、#$耗费上千小时自研构建平台%!#$采购昂贵的SaaS!#$%拥抱开源 OpenMLDB 低成本&()*+,-./02.OpenMLDB:线上线下一致的生产级特征计算平台13OpenMLDB 是一个开源机器学习数据库,提供线上线下一致的特征计算平台解决方案14#$%$%&GHI1.!SQL#$%&(2.)*+,-!3./0123456OpenMLDB 应用场景和使用方式OpenMLDB-./01!23456!789:;?R!?R!ABCDOpenMLDB-./1!EFGHIJK-.LMNOPQRSR1!?!?!ABCD离线计算性能需求实时计算性能需求OpenMLDB-./TUEFVWI+,
6、56EF781!?R!?!ABCD高高从离线开发到线上服务完整流程161.Offline data import2.Offline feature extraction3.SQL deployment4.Data importfor cold-startOffline databaseOnlinedatabase5.Real-time data streams6.Online data preview7.Real-time feature extractionReal-time requestsReal-time featuresOffline Mode