1、DataFunTalkDataFunTalk:成就百万数据科学家!:成就百万数据科学家!DataFunTalkDataFunTalk:成就百万数据科学家!:成就百万数据科学家!目录美团酒旅数据治理实践.4有赞数据治理之提质降本.25滴滴数据指标体系建设实践.42联邦学习与安全多方计算.69京东超大规模联邦学习探索实践.92微众银行在联邦推荐算法上的探索及应用.113新一代联邦学习技术及应用实战.143爱奇艺数据中台的建设实践.176金融资管数据中台体系探索实践.203贝壳商业化算法中台架构实践.226DataFunTalkDataFunTalk:成就百万数据科学家!:成就百万数据科学家!美团酒
2、旅数据治理实践美团酒旅数据治理实践分 享 嘉 宾:李 建 舒美 团技 术 专 家编 辑 整 理:李 梦出 品 平 台:DataFunTalk导读:导读:本文主要介绍美团酒旅数据治理的历程和实践经验,以及业务发展各个阶段中数据体系遇到的问题和解决方案。最后,将探讨数据治理在现阶段的建设思路和发展方向。0101背景介绍背景介绍数据治理这个话题这两年非常火热,很多公司尤其大型互联网公司都在做一些数据治理的规划和动作。为什么大家都要做数据治理?我个人的理解是,从数据产生、采集、生产、存储、应用到销毁的全过程中,可能在各环节中引入各种问题。初始发展阶段,这些数据问题对我们的影响不大,大家对问题的容忍度比
3、较高。但是,随着业务发展数据质量和稳定性要求提升,并且数据积累得越来越多,我们对一些数据的精细化要求也越来越高,就会逐渐发现有很多问题需要治理。数DataFunTalkDataFunTalk:成就百万数据科学家!:成就百万数据科学家!据开发过程中会不断引入一些问题,而数据治理就是要不断消除引入的问题,以高质量、高可用、高安全的方式为业务提供数据。1.1.需要治理哪些问题需要治理哪些问题数据治理过程中哪些问题需要治理?总结了有五大类问题。DataFunTalkDataFunTalk:成就百万数据科学家!:成就百万数据科学家!质量问题,是最重要的问题,很多公司数据部门或者业务线组做数据治理的一个大
4、背景就是数据质量存在很多问题,比如数仓的及时性、准确性、一致性、规范性和数据应用指标的逻辑一致性问题。成本问题,互联网行业数据膨胀速度非常快,大型互联网公司在大数据基础设施上的成本投入占比非常高,而且随着数据量的增加成本也将继续攀升。安全问题,尤其是业务特别关注的用户类数据,一旦泄露,对业务的影响非常大,甚至能影响整个业务的生死。标准化问题,当公司业务部门比较多的时候,各业务部门、开发团队的数据标准不一致,在数据打通和整合过程中会出现很多问题。效率问题,在数据开发和数据管理过程中都会遇到一些效率低的问题,很多时候是靠堆人力在做。2.2.美团酒旅数据现状美团酒旅数据现状美团酒旅业务从 2014
5、年成立为独立业务部门,到 2018 年成为国内酒旅业务重要的在线预订平台,业务发展速度比较快,数据增长速度也非常快。2017 到 2018两年里,生产任务数以每年超过一倍的速度增长,数据量的增长速度每年两倍多。如果不做治理,按指数级增长趋势,未来数据生产任务的复杂性还是成本负担都非常大。针对我们当时面临的情况,总结了五大类问题:标准化的规范缺失,开始建设的时候业务发展非常快,但多个业务线之间的标准化和规范化建设都只是以规范文档的形式存在,每个人的理解不一致,导致多个研发同学开发出来的数据标准就很难达到一致。DataFunTalkDataFunTalk:成就百万数据科学家!:成就百万数据科学家!
6、数据质量问题比较多,突出在几个方面,第一个是数据冗余很多,从数据任务增长的速度来看,新上线人多,下线任务少,数据表的生命周期控制较少。第二个是在数据建设过程中很多应用层数据都是烟囱式建设,很多指标口径没有统一的管理规范,数据一致性无法保证。成本增长非常快,在某些业务线大数据存储和计算资源的机器费用占比已经超过了 35%,如果不加以控制,大数据成本费用只会越来越高。数据安全的控制,各业务线之间可以共用的数据比较多,而且每个业务线没有统一的数据权限管理。数据管理和运维效率低,数据使用和咨询多,数据 RD 需要花费大量时间解答业务用户的问题。0202治理实践治理实践2018 年以前酒旅数据组也做过数