《第四范式 OpenMLDB 的机器学习实时应用最佳实践-杨守仁 .pdf》由会员分享,可在线阅读,更多相关《第四范式 OpenMLDB 的机器学习实时应用最佳实践-杨守仁 .pdf(24页珍藏版)》请在三个皮匠报告上搜索。
1、OpenMLDB 的机器学习实时应用最佳实践杨守仁第四范式 OpenMLDB 核心用户机器学习实时应用落地问题OpenMLDB 方案演进案例分析:某银行事中交易反欺诈OpenMLDB 的未来规划机器学习实时应用落地 数据科学家数据对接特征工程模型训练模型上线机器学习实时应用落地 数据工程师数据对接特征工程模型训练模型上线机器学习实时应用落地问题落地困难数据一致性性能OpenMLDB 方案演进 机器学习实时应用落地问题案例分析:某银行事中交易反欺诈OpenMLDB 的未来规划OpenMLDB 方案演进高效和正确的数据方案开发即上线线上线下一致性OpenMLDB 方案演进统一的 DSL优点一致性、
2、性能缺点学习成本OpenMLDB 方案演进自动化特征工程特征数量的提升时序窗口数量提升人工干预的难度提升OpenMLDB 方案演进OpenMLDB 方案演进FeSQL面向机器学习优化的 SQL 引擎多窗口的并行优化面向机器学习优化的 In-memory 存储引擎基于持久内存的优化OpenMLDB 方案演进持久内存优化:Cheng Chen,et al.Optimizing in-memory database engine for AI-powered on-line decision augmentation using persistent memory.VLDB 2021.Reduce
3、99.7%of recovery timeOpenMLDB 方案演进为 AI 工程化落地高效地供给正确数据一致性易用性性能案例分析:某银行事中交易反欺诈OpenMLDB 方案演进机器学习实时应用落地问题OpenMLDB 的未来规划案例分析:某银行事中交易反欺诈专家规则报表统计业务分析交易报文事前事中事后数据采集数据接入反馈模型自学习策略迭代业务场景注册登录转账修改信息业务变更特殊名单业务监控反欺诈机器学习模型机器学习模型评分指标计算设备指纹规则判断反欺诈专家规则实时指标计算案件调查Copyright 2020 4Paradigm All Rights Reserved.当前交易与历史交易的对比
4、类特征(MAC、IP)当前交易与历史交易的对比类特征(转入、转出卡维度)交易金额、时间、交易双方基础特征交易地理位置类特征连续行为类特征体系窗口:last_d0,last_d3Td0,last_d7Td0,last_d30Td7,last_d60Td30,last_d90Td60次数类:转入转出卡在不同历史窗口中的:交易次数 小额交易次数 欺诈数、欺诈率 金额类:交易金额与转出卡历史交易金额的最小值、最大值、平均值、标准差的比值 转入卡历史交易金额的最小值、最大值、平均值、标准差的比值 其他交易习惯类:MAC、IP、MAC/IP_BIN、省、市、哪个小时、周几、几号、交易地区、客户基本属性、转
5、入卡卡号、卡BIN等的次数、种类、是否高频、是否一致(熵)交易金额:分桶、是否有小数、位数、0&9出现的次数以及占比 是否行内转账 转入、转出卡:卡号长度、发卡天数&分桶、ratio 转入、转出客户:开户天数、年龄&分桶、ratio 交易发生时间:哪个小时、周几、几号 转入、转出客户性别、种族、出生地、教育、婚姻、职业等OHE 历史时间窗口下MAC/IP每个字段的次数统计类特征同一MAC/IP下交易金额类特征同一MAC/IP下交易时间、卡属性、客户属性的次数、种类、是否高频、是否一致(熵)是否MAC/IP热点不同时间窗口内交易地点、转出账号开户地、转入账号开户地相互之间的当前地理位置特征(是否
6、是在同一国家、省份、城市,距离等)交易地点、转出账号开户地、转入账号开户地相互之间如果相同/不同,是否同历史一致同一转出/转入账号下客户年龄和开卡天数对应历史交易记录的统计特征最近7天内近5次交易额的值、是否与当前交易额相等、累加值、累加值与当前交易额的比值、交易间隔的变化案例分析:某银行事中交易反欺诈机器学习平台s在线预估实时风控应用模型预估特征工程预处理时序处理数据拼接API模块数据对接模块模型缓存风控引擎KafkaPRM自学习授权后交易流水卡核心模型预估增量训练特征工程