《新氧云原生全栈数仓最佳实践-大数据平台技术论坛(16页).pdf》由会员分享,可在线阅读,更多相关《新氧云原生全栈数仓最佳实践-大数据平台技术论坛(16页).pdf(16页珍藏版)》请在三个皮匠报告上搜索。
1、新氧云原生全栈数仓最佳实践高宏超数据中台数据研发部总监Contents目录01新氧简介03新氧基于阿里云大数据平台04新氧大数据平台建设效果02新氧自建大数据架构公司介绍 新氧是中国最大、最受欢迎的提供查询、挑选和预约医美服务的垂直在线平台。业务已覆盖中国超过350个城市,以及日本、韩国、新加坡、泰国。已吸引近6000家认证医美及消费医疗机构入驻,供用户选择。新氧平台上有超过470万篇美丽日记,提供真实有效的决策辅助。美东时间2019年5月2日,新氧在美上市,交易代码:SY,成为全球互联网医美平台第一股。业务模式用户友好,医生机构看口碑 社区口碑价格透明,打破信息不对称 方案比价净化行业,摒弃
2、黑医美乱象 正品联盟平台保障,售后服务更安心 平台保障 行业首创医美社区+电商模式新氧自建大数据架构数据统计截至2020年6月(上云之前)*Flume机构/医生基本信息展示、经营信息展示数据接入SentryKerberosLDAPKettleMaxwell认证授权离线集群计算引擎HiveYarnSparkImpalaKylinImpala数据存储ImpalaESKafkaHDFSHbase实时集群计算引擎FlinkYarnSpark数据存储KafkaHbaseGrafana+PrometheusAzkabanJenkins调度&监控Zeppelin对外服务HUEJDBC/API新氧自建大数据的
3、挑战与问题基于Azkaban的调度系统无法管控隔离任务调起的计算资源开发环境与线上环境未分离集群上线任务未严格管控及代码review集群资源无法准确统计各业务方使用量业务方面:技术方面:数据质量较差,数据无法深入业务,支持业务决策业务对公司全局数据无渠道获取,不知道数据仓库有哪些数据业务部门数据需求得到的响应时间过长业务变化快,数据结构更改,上层影响无法评估,响应慢问题;新氧大数据平台优化的决策项安全中心权限审批操作审计备份&恢复数据存储计算成本人员投入成本降本增效数据安全保障降成本提人效统一数据开发平台任务监控报警安全集市数据脱敏敏感数据发现异常操作审计监控数据资产管理数据质量监控元数据&血
4、缘关系数据生命周期数据资产有效管理集市成本使用分摊数据计算隔离计算成本可拆分数据可视化TableauQuickBIDataV数据组件可扩展数据挖掘PAI实时计算EMR-Kafka新氧基于阿里云大数据平台数据架构用户运营管理商家运营系统数据可视化分析市场投放系统大屏监控ABTest系统推荐搜索&风控反作弊APP基础数据中心WebH5小程序请求日志日志采集/接入系统数据采集/接入交易系统用户会员商家机构内容金融计算与存储平台离线计算-MaxCompute流式计算EMR Kafka+Flink+Hologres数据总览数据资产管理(DataWorks)数据地图数据质量数据使用分析安全中心资源优化数据
5、集成清洗结构化建模研发调度运维标签生产异常报警主题数据中心流量内容商家用户产品交易运营售后数据开发(DataWorks)多维数据中心用户数据体系统一数据服务(OneService)利用数据管理平台模型设计模块,以业务板块+业务过程+分析维度为架构构建(OneData)内容数据体系商家数据体系流量数据体系利用维度建模,以业务对象+统计指标/标签为架构构建(OneData)运营数据体系金融数据体系API金融媒体新氧大数据建设效果-数据方面1.2020年9月之后数仓数据处理ETL任务平均运行时间效率上提升2-3倍,详细如柱状图:2.2020年9月之后数仓数据处理ETL任务从上午10点提前到6点前完成
6、,详细如曲线图:0250500750100012501500ODSDWDDWSDM阿里云平均运行时长自建数据平台平均运行时长01002003004005006007001:002:003:004:005:006:007:008:009:0010:00 11:00 12:00阿里云运行任务数自建数据平台运行任务数新氧大数据建设效果-业务方面(商家运营)商家多维数据层(DWS)数仓贴源层(ODS)主题模型层(DWD)机构/医生数据(认证/入住/合同信息等)机构/医生业务数据(内容/流量/商品/方案/交易/商机/财务等)