多表自动机器学习应用研究-罗远飞.pdf

编号:127305 PDF 31页 3.21MB 下载积分:VIP专享
下载报告请您先登录!

多表自动机器学习应用研究-罗远飞.pdf

1、多表自动机器学习罗远飞第四范式 资深算法研究员个人经历 第四范式推荐算法负责人 从零研发了第四范式的AutoML算法平台 算法效果上,优于谷歌云 入选Gartner、Forrester全球AutoML平台代表厂商 负责了机器学习在金融、能源、制造、零售和媒体等多个领域的落地 服务客户包括工行、宁德时代、人民日报、百胜中国等 在KDD、SIGIR、ACL、EMNLP等发表多篇论文 竞赛 KDD Cup 2020强化学习世界冠军 国内首届迁移学习算法竞赛冠军 农行雅典娜杯算法竞赛冠军大纲 背景 多表自动特征 类型推断 多表视图 特征工程 资源感知的AutoML 企业级AutoML落地案例 总结背景

2、 机器学习:利用经验(数据)来改善系统的性能 Zhou机器学习数据(E)性能(P)任务(T)Mitchell背景 自动机器学习(AutoML)模型应用到实际环境背景 为什么要AutoML:供需不平衡 Gartner预测:2022年企业平均AI应用部署数量相比2019年增长9倍技术技术人才人才成本成本 优秀的人才极为紧缺 不同的人在同一个业务上的建模效果差距非常大 同一个人在不同业务上的建模效果差距也非常大 收益无法评估 计算资源成本、人力成本太高 企业不愿意持续大胆创新 技术眼花缭乱 数据科学家采用的数据标准化程度低 无法形成标准化沉淀,加速度差背景 为什么要做自己的AutoML产品 大多现有

3、产品不支持多表 不能很好的结合人的经验 上线困难 能处理的数据量有限,分布式不友好 我们的产品:企业级AutoML 支持多表自动拼接与自动特征工程 交互式自动机器学习,Human-In-the-Loop 支持一键上线,线上线下一致的数据处理逻辑 支持海量数据处理,并针对拼表、大规模分布式机器学习算法特殊优化背景 表数据 离散列:用户ID 连续列:身高 日期、时间戳、IP等 多表 表格多达上百个 字段类型不明确 链接关系复杂 1-1/1-M/M-1/M-M大纲 背景 多表自动特征 类型推断 多表视图 特征工程 资源感知的AutoML 企业级AutoML落地案例 总结多表自动特征 自动类型推断 在

4、数据包含异常和缺失的情况下,如何准确的推断字段类型 启发式 正则表达式 Pandas/R的内置规则型类型推断 基于模型的 经典有监督学习类方法 抽取特征,训练分类模型 生成式模型 概率化有限状态机(Probabilistic Finite-State Machines,PFSM)ptype,2020多表自动特征 概率化有限状态机 将不同的字段类型作为有限状态机的节点,建立概率图模型 同时引入异常和缺失两类节点 训练阶段,在数据上学习节点间的转移概率 预测阶段,使用概率最大的类型作为预测结果多表自动特征 多表拼接Deep Feature Synthesis,2015;OneBM,2017 端到端

5、的生成方式,缺乏灵活性,不能有效融入人的经验 时序拼接能力有限 Human-In-the-Loop的多表操作 Ontology 多表的统一抽象 MetaPath 统一的单表和跨表运算逻辑描述 E1 C E2,其中C=(id,key1,key2,r,O)Entity 每个表格当作一个实体 Relation 定义表格间的固有链接关系1-1/1-M/M-1/M-M多表自动特征 多表视图展示多表间的MetaPath修改多表间的MetaPath展示多表链接多表自动特征 特征生成 Transform Operator 行间算子 log/sum 时序聚合算子 window操作 组内聚合算子 groupby

6、Stateful Operator normalization Multi-table Operator 按照ID聚合并取均值多表自动特征 特征生成 多表连接可能存在环路 消环 单向/双向 可能的特征空间为指数级 结合黑白名单的一次性生成 Deep Feature Synthesis 迭代式 基于集束搜索 AutoCross多表自动特征 特征选择AutoCross,2019 类Boosting机制的Field-wise LR 基于参数服务器,一次扫描数据,即可得到所有特征的重要性 结合多保真度,进一步降低评估代价大纲 背景 多表自动特征 类型推断 多表视

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(多表自动机器学习应用研究-罗远飞.pdf)为本站 (2200) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
客服
商务合作
小程序
服务号
折叠