《多表自动机器学习应用研究-罗远飞.pdf》由会员分享,可在线阅读,更多相关《多表自动机器学习应用研究-罗远飞.pdf(31页珍藏版)》请在三个皮匠报告上搜索。
1、多表自动机器学习罗远飞第四范式 资深算法研究员个人经历 第四范式推荐算法负责人 从零研发了第四范式的AutoML算法平台 算法效果上,优于谷歌云 入选Gartner、Forrester全球AutoML平台代表厂商 负责了机器学习在金融、能源、制造、零售和媒体等多个领域的落地 服务客户包括工行、宁德时代、人民日报、百胜中国等 在KDD、SIGIR、ACL、EMNLP等发表多篇论文 竞赛 KDD Cup 2020强化学习世界冠军 国内首届迁移学习算法竞赛冠军 农行雅典娜杯算法竞赛冠军大纲 背景 多表自动特征 类型推断 多表视图 特征工程 资源感知的AutoML 企业级AutoML落地案例 总结背景
2、 机器学习:利用经验(数据)来改善系统的性能 Zhou机器学习数据(E)性能(P)任务(T)Mitchell背景 自动机器学习(AutoML)模型应用到实际环境背景 为什么要AutoML:供需不平衡 Gartner预测:2022年企业平均AI应用部署数量相比2019年增长9倍技术技术人才人才成本成本 优秀的人才极为紧缺 不同的人在同一个业务上的建模效果差距非常大 同一个人在不同业务上的建模效果差距也非常大 收益无法评估 计算资源成本、人力成本太高 企业不愿意持续大胆创新 技术眼花缭乱 数据科学家采用的数据标准化程度低 无法形成标准化沉淀,加速度差背景 为什么要做自己的AutoML产品 大多现有
3、产品不支持多表 不能很好的结合人的经验 上线困难 能处理的数据量有限,分布式不友好 我们的产品:企业级AutoML 支持多表自动拼接与自动特征工程 交互式自动机器学习,Human-In-the-Loop 支持一键上线,线上线下一致的数据处理逻辑 支持海量数据处理,并针对拼表、大规模分布式机器学习算法特殊优化背景 表数据 离散列:用户ID 连续列:身高 日期、时间戳、IP等 多表 表格多达上百个 字段类型不明确 链接关系复杂 1-1/1-M/M-1/M-M大纲 背景 多表自动特征 类型推断 多表视图 特征工程 资源感知的AutoML 企业级AutoML落地案例 总结多表自动特征 自动类型推断 在
4、数据包含异常和缺失的情况下,如何准确的推断字段类型 启发式 正则表达式 Pandas/R的内置规则型类型推断 基于模型的 经典有监督学习类方法 抽取特征,训练分类模型 生成式模型 概率化有限状态机(Probabilistic Finite-State Machines,PFSM)ptype,2020多表自动特征 概率化有限状态机 将不同的字段类型作为有限状态机的节点,建立概率图模型 同时引入异常和缺失两类节点 训练阶段,在数据上学习节点间的转移概率 预测阶段,使用概率最大的类型作为预测结果多表自动特征 多表拼接Deep Feature Synthesis,2015;OneBM,2017 端到端
5、的生成方式,缺乏灵活性,不能有效融入人的经验 时序拼接能力有限 Human-In-the-Loop的多表操作 Ontology 多表的统一抽象 MetaPath 统一的单表和跨表运算逻辑描述 E1 C E2,其中C=(id,key1,key2,r,O)Entity 每个表格当作一个实体 Relation 定义表格间的固有链接关系1-1/1-M/M-1/M-M多表自动特征 多表视图展示多表间的MetaPath修改多表间的MetaPath展示多表链接多表自动特征 特征生成 Transform Operator 行间算子 log/sum 时序聚合算子 window操作 组内聚合算子 groupby
6、Stateful Operator normalization Multi-table Operator 按照ID聚合并取均值多表自动特征 特征生成 多表连接可能存在环路 消环 单向/双向 可能的特征空间为指数级 结合黑白名单的一次性生成 Deep Feature Synthesis 迭代式 基于集束搜索 AutoCross多表自动特征 特征选择AutoCross,2019 类Boosting机制的Field-wise LR 基于参数服务器,一次扫描数据,即可得到所有特征的重要性 结合多保真度,进一步降低评估代价大纲 背景 多表自动特征 类型推断 多表视