《陈迪豪《OpenMLDB最新开源生态集成》.pdf》由会员分享,可在线阅读,更多相关《陈迪豪《OpenMLDB最新开源生态集成》.pdf(30页珍藏版)》请在三个皮匠报告上搜索。
1、OpenMLDB 最新开源生态态集成陈迪豪第四范式平台架构师1.实时智能决策的工程化挑战实时智能决策的工程化挑战2.OpenMLDB 提供线上线下一致的实时特征计算提供线上线下一致的实时特征计算3.社区生态和案例分享社区生态和案例分享1.实时智能决策的工程化挑战实时智能决策的工程化挑战2.OpenMLDB 提供线上线下一致的实时特征计算提供线上线下一致的实时特征计算3.社区生态和案例分享社区生态和案例分享基于机器学习的实时智能决策,需要毫秒级的实时计算能力解决方案响应时间准召率传统规则系统200ms较差客户自研系统50ms中等第四范式先知20ms优等、以某银行反欺诈场景为例客户需求:特征计算响
2、应时间 20ms 内,高准召率的事中反欺诈系统银行要求毫秒级业务响应分钟分钟/小时小时 级别级别两大 AI 应用:感知类、决策类决策类硬实时计算真正满足实时决策需求 实时数据、实时计算实时数据、实时计算流式计算为 Big Data 和 BI 设计硬实时场景蕴藏巨大商业价值,鲜有通用商业化产品Milliseconds 毫秒级毫秒级Seconds 秒级秒级批量计算Batch流式计算Streaming硬实时计算Hard Real TimeAI无人车AI事中反欺诈量化交易航空航天现在市面上所谓的AI实时计算大都是流式计算基于机器学习的智能决策从离线开发到上线全流程数据 数据采集 数据存储特征 离线特征
3、探索开发 特征存储和共享模型 模型训练 超参数调优模型 在线推理 结果数据回流特征 实时特征计算 特征服务数据 实时数据流接入 实时请求离线开发实时线上服务部署上线结果反馈需求:线上线下一致的实时特征计算平台事中反欺诈交易的实时特征计算工程化需求工程化需求1.线上线下一致性2.低延迟、高并发、高可用卡号卡号刷卡金额刷卡金额刷卡时间(已排序)刷卡时间(已排序)0121122232022/01/12 02:00:00012159152022/01/12 06:00:0001215910002022/01/12 07:59:5501215920002022/01/12 07:59:57卡号卡号刷卡金
4、额刷卡金额刷卡时间刷卡时间01215910002022/01/12 08:00:00卡号卡号刷卡金额刷卡金额过去过去10秒内:刷卡次数秒内:刷卡次数|刷卡最刷卡最大金额大金额|最小金额最小金额|平均金额平均金额过去三小时内:刷卡次数过去三小时内:刷卡次数|刷卡刷卡最大金额最大金额|最小金额最小金额|平均金额平均金额01215910003|2000|1000|13334|2000|14|100301215910002022/01/12 08:00:0010s3h基于窗口聚合特征计算特征计算模型推理欺诈交易?欺诈交易?历史交易表历史交易表虚拟插入生成的特征生成的特征刷卡记录刷卡记录传统特征开发:离
5、线开发和线上服务分离,高成本投入实时特征计算线上服务线上预估服务实时特征特征平台特征平台Database/C+工程化团队离线特征计算离线开发线下模型训练离线特征数据科学家Python/SparkSQL计算逻辑一致性校验线上线下不一致性可能的原因工具能力的不一致性 需求沟通的认知差Account Balance线上应用线上应用current“account balance”离线开发离线开发“account balance”as of yesterday离线开发离线开发线上应用线上应用=0 2 1标准差=0 2(Bessels Correction)PythonMySQL标准差线上线下一致性校验带
6、来的高昂工程化落地成本高昂工程化落地成本对齐+校验线下开发线下开发线上服务线上服务两组 不同技能栈的开发人员投入两套 系统的开发、运营1.实时智能决策的工程化挑战实时智能决策的工程化挑战2.OpenMLDB 提供线上线下一致的实时特征计算提供线上线下一致的实时特征计算3.社区生态和案例分享社区生态和案例分享OpenMLDB 发展历程:从闭源走向开源开源前,跟随第四范式 先知 平台,在 100+场景 落地,覆盖超过 300个节点。开源后,以开放姿态积极拥抱社区开发者、整合开源生态,提供商业化定制和支持。过往5年网点流量预测理财个性化推荐 信用卡现金分期精准营销 营销获客风险管理 现金分期个性化推
7、荐信用卡交易反欺诈欺诈养卡防控金融产品推荐信用卡申请反欺诈历史客户激活投顾客户挖掘客户流失预警贷前风险评分零售贷款反欺诈合规额度决策信用卡账户风险预警交易欺诈评分反洗钱可疑交易智能识别个性化推荐RTIDB/FEDBRTIDB/FEDB(第四范式闭源)2021.6主要使用场景OpenMLDBOpenMLDB(开源/商业化)OpenMLDB:开源机器学习数据库,线上线下一致的特征平台离线数据实时数据SQL一致性执行计划生成器批处理 SQL 引擎(Spark)实时 SQL 引擎(自研时序数据库)线下线上模型训练模型推理使用使用OpenMLDBOpenMLDB,实现开发即上线,实现开发即上线,节省节省
8、数月数月人天成本人天成本OpenMLDBOpenMLDB 抽象架构抽象架构原有流程原有流程基于基于 OpenMLDBOpenMLDB 的流程的流程科学家工程师Step 1:特征脚本开发Step 2:重构,满足线上低延时、高吞吐、高可用Step 3:线上线下一致性校验科学家+工程师工程师Step 4:生产上线科学家 Step 1:特征脚本开发科学家 Step 2:一键生产上线从离线开发到线上服务完整流程1.导入离线数据源2.离线特征计算3.SQL 部署上线离线存储在线存储4.接入在线数据源5.实时特征计算服务实时请求实时请求实时特征实时特征离线开发(离线模式)离线开发(离线模式)生产上线(在线模
9、式)生产上线(在线模式)SQL时间窗口模型训练InferenceOpenMLDB 提供了一个 线上线下一致 的毫秒级 实时特征计算平台-基于实时数据按需计算(on-demand)-基于 SQL 定义特征-生产级平台,分布式、可扩展、高可用 核心组件一:线上线下一致性执行引擎l 统一的底层计算函数l 逻辑计划到物理计划的线上线下执行模式自适应调整线上线下一致性得到 天然保障核心组件二:高性能实时 SQL 引擎分布式实时 SQL 引擎主要模块-ZooKeeper 元数据存储和管理-Nameserver tablet 管理和故障转移-Tablets-分布式 SQL 执行引擎-分布式存储引擎:内存、磁
10、盘双存储引擎-高性能、可扩展、高可用高性能、可扩展、高可用详细线上引擎架构描述参见:https:/ 核心组件三:面向特征计算的优化的离线计算引擎-多窗口并行计算优化-数据倾斜计算优化-SQL 语法扩展-针对特征计算优化的 OpenMLDB Spark 发行版Elapsed time(sec)Spark 3.0.0OpenMLDB核心组件四:针对特征工程的 SQL 扩展LAST JOIN多行匹配时,仅匹配最新记录WINDOW UNION跨表的 join 和窗口聚合操作(point-in-time),避免特征穿越高级生产级特性,保证系统稳定性和可扩展性跨机房容灾跨机房容灾构建主从集群,进一步提升可
11、靠性Real-Time SQL EngineSQLBuilt-in(DRAM)RocksDB(HDD/SSD)Storage Engine线上内存线上内存/磁盘双引擎存储架构磁盘双引擎存储架构平衡性能和成本自动化在离线数据同步自动化在离线数据同步简化运维操作,保证数据一致性一键数据恢复分片自动平衡智能诊断智能化运维和诊断智能化运维和诊断支持不同部署模式支持不同部署模式原生形态部署1.实时智能决策的工程化挑战实时智能决策的工程化挑战2.OpenMLDB 提供线上线下一致的实时特征计算提供线上线下一致的实时特征计算3.社区生态和案例分享社区生态和案例分享OpenMLDB 上下游开源生态ModelO
12、psFeatureOps-OpenMLDBProductionOpsOnline Data SourcesDeploymentMonitoringOffline SQL Engine(external storage)Online Storage EngineOnline SQL Engine(*built-in,in-mem)(*built-in)(*OpenMLDB Spark Distribution)DolphinSchedulerOffline Data Sources基于基于 OpenMLDB 的特征平台的特征平台-可视化特征开发和管理界面-基于 DAG 的大型复杂特征开发辅助-特
13、征灵活复用-特征血缘管理和版本管理-同时支持毫秒级实时特征、离线特征OpenMLDB 案例 Akulaku 智能计算架构中的特征平台行为评分团伙模型反洗钱模型风险设备标签地理位置标签地址评分设备唯一ID智能客服异常文本识别智能投顾微服务与容器管理异构计算调度参数搜索与优化微服务与容器管理在线特征数据库高性能存储知识图谱推理组件图数据库粗排组件召回组件图数据库分布式锁离线特征数据库流式计算引擎离线计算引擎高性能存储消息队列模型训练模型部署知识推理引擎智能应用模型计算层特征计算层场景驱动:场景驱动:OpenMLDBAkulaku 智能风控场景,对 10 亿条订单进行窗口特征计算,达到 4 毫秒延迟
14、性能场景驱动场景驱动:业务调用环节驱动,实时计算结果,现用现算具体方案具体方案:1)使用SQL作为离线和在线的桥梁;2)在线基于时序数据库做时间滑窗特征计算环节难点OpenMLDB 解决方案基于 OpenMLDB 的业务实现线上部署线上部署:低延迟,高时效性,尽可能反映数据变更线下分析线下分析:高吞吐量逻辑一致逻辑一致:线下分析和线上部署的逻辑需要完全一致场景:场景:近1天订单个数实时计算数据量:数据量:10亿条订单数据/天需求:需求:实时更新,时间窗口实时滑动,存在复杂关联需求测试结果测试结果:4毫秒 延迟唯品会将 OpenMLDB 应用于商品及品牌个性化推荐场景,带来特征开发迭代速度60%
15、的提升样本表样本表用户表Item表Item表注:样本表:不同场景下的用户行为表,包括曝光点击收藏用户表:用户侧所有用户画像信息Item表:不同物料的全量信息表数据处理数据处理基于基于 OpenMLDBOpenMLDB 的特征工程的特征工程(静态特征及特征组合)(静态特征及特征组合)商品及品牌的商品及品牌的个性化推荐业务场景个性化推荐业务场景特征开发迭代速度特征开发迭代速度5 5人天人天 2 2人天人天DolphinScheduler部署部署监控监控某头部ICT公司将 OpenMLDB 用于实时商品个性化推荐场景客户数据表基于基于OpenMLDBOpenMLDB的实时特征抽取的实时特征抽取小时级
16、特征上线小时级特征上线数据分钟级更新7.2亿条订单数据/天线上实时数据线上实时数据某头部电信运营商 热线渠道用户融合营销场景用户热线客服融合营销服务场景AI模型拨打热线通话过程中.服务评价挂机智能语音助手按键服务(IVR)人工服务(坐席人员)热线外呼按 1按#说”转人工“按 0是否转人工及坐席匹配用户诉求判别(意图识别)产品活动精准推荐营销话术推荐(辅助生成)商机挖掘/回捞用户意图识别模型坐席人员推荐模型用户诉求推测模型用户诉求判断模型产品活动推荐模型场景标签挖掘模型再营销价值预估模型再营销渠道推荐模型接电话或收信息话术生成模型0话务预测&智能排班话务预测模型智能排班模型营销失败原因分析失败原因分析模型用户在热线渠道的全旅程:OpenMLDB 主要支持的实时在线场景欢迎加入OpenMLDB 社区OpenMLDB 中文官网:https:/openmldb.ai/GitHub:https:/ OpenMLDB 微信交流群谢谢 谢谢 观观 看THANKS