1、开源大数据治理体系构建助力游戏行业数据化运营翁庆彬创梦天地技术总监用户产品全生命周期服务游戏及信息服务SaaS及相关服务线下娱乐创梦天地消除类竞技类中重度游戏流量获取变现增收政策合规AI大数据分析主机体验主机及游戏零售潮玩 拥有1.38亿平均月活用户 2018年12月6日在香港联交所主板挂牌(股票代码:1119)连接全球顶尖厂商,持续提供精品内容 打通线上线下,打造24小时线上线下娱乐生活圈 与阿里云深度合作:彩虹数据-为中小企业数智化赋能调查结果由CrowdFlower发布数据团队都在忙什么?数据科学(21世纪“最时尚最脏”的工作)数据标准收集和数据处理(20%)数据质量、数据管理,错误数据
2、丢弃,异常数据修复,数据监控(60%)数据分析(10%)按业务逻辑整理,挖掘帮助业务增值(10%)Contents目录01大数据架构02DataWorks实践03数据应用产品 实时计算定制化 每次发一款/更新 游戏都需要个性化升级计算模块 调度管理采用开源调度引擎 质量没保证 给人错误信息 做出错误决策 单独数据监控系统 为了保证数据质量(监控实时性、全面性、灵活性严重不足)数据回滚系统(系统做了很多不必要的外围系统)创梦天地旧有大数据架构架构痛点应用层彩虹数据开发开源调度引擎离线计算HIVE实时计算Java定制化程序数据源埋点日志讯风数据监控数据回滚Presto接口上报第三方上报各类生产库创
3、梦天地基于阿里云大数据架构应用层彩虹海豚讯风A/B TestAI礼包开发层DataWorks数据服务任务调度运维中心数据质量计算层HIVEPrestoFlinkSpark存储层HDFSADBESKafkaHbase采集层dlog-json-receiverdlog-transformFlinkDataWorks数据集成数据源埋点日志文件接口上报第三方上报各类数据库DataStudioClickhouse开源大数据治理体系-数据集成提供丰富的异构数据源和端,支持同步异步数据传输转换的数据传输桥梁ReaderDataWorks数据集成MySQL关系型数据库ADBMPPHDFS、HIVE大数据存储W
4、riterMySQL关系型数据库ADB、ClickhouseMPPHDFS、HIVE大数据存储Hbase、ES、KafkaNoSQL自研塔台调度系统DataWorks On EMR可视化任务开发及调度支持支持全文搜索不支持支持工作流流程控制支持支持跨地域任务依赖调度不支持支持自定义调度资源组不支持支持任务运维智能诊断不支持支持自定义节点不支持支持移动版任务运维/权限审批不支持支持SQL编辑器功能不支持支持开源大数据治理体系-数据开发支持构建复杂的业务流程和调度依赖1、分钟/小时/天/周/月周期调度2、顺序/循环/分支判断流程控制3、节点上下文传参4、DAG图便于任务异常溯源旧有调度(塔台)方式
5、及痛点:1、执行引擎过于单调2、插件类型过于单一3、可视化排版不够直观4、时间属性配置较弱5、不支持跨工作流调度依赖开源大数据治理体系-任务调度每日近2万个周期实例任务运行,支持顺序/循环/分支依赖、节点上下文传参DataWorks任务调度系统:创梦天地基于DataWorks构建2万+实例调度系统旧有运维方式及痛点:DataWorks运维:1、缺少运维总览,对总体任务运行情况没有整体的报告2、缺少基线告警功能,对重要任务延时不能及时响应3、缺乏DAG图,对异常任务的排查过于繁琐开源大数据治理体系-任务运维图形化任务运维管理,依赖图(DAG)逐级展现,极大降低运维成本周期性任务运维触发式任务运维
6、智能监控移动运维周期任务管理周期实例管理补数据实例管理测试实例管理手动任务管理手动实例管理基线实例基线管理事件管理规则管理自动运维提供钉钉小程序旧有数据质量处理流程:1、人为梳理规则,规则不够全面2、开发周期过长,过于定制化3、滞后处理,异常数据污染下游开源大数据治理体系-数据质量DataWorks数据质量处理:便捷灵活的规则定义:37种内置模板规则+自定义规则AI算法的智能异常阀值智能规则自动推荐与数据开发调度深度集成:支持EMR Hive、ADB等调度触发规则运行节省计算