《2017年Mobike大数据基础平台建设.pdf》由会员分享,可在线阅读,更多相关《2017年Mobike大数据基础平台建设.pdf(21页珍藏版)》请在三个皮匠报告上搜索。
1、Mobike大数据基础平台建设目录 Mobike 介绍 团队介绍 平台演变 平台架构 平台建设 未来展望Mobike 介绍 全球第一大互联网出行服务平台 10+个国家200个城市 日订单量3000万+700万+摩拜单车 2亿+用户团队介绍 职责提供一站式大数据服务平台提供大数据存储计算平台提供实时搜索服务平台标准化数据计算逻辑和管 理 用户 数据团队、研发工程师平台历程2017.0110+nodes2017.0620+nodes2017.0940+nodes2017.11 100+nodes业务 日志处理 数据仓库 报表 红包车 反作弊 实时计算 车辆调度.数据量 规模 2 Hadoop cl
2、uster 100+nodes 存储1PB 日增6TB 计算 800+jobs/day400000+Tasks/day 工具以Hadoop为核心,Kafka、HBase、Hive、Spark、Storm、ELK平台架构平台架构平台建设 日志收集Logstash+Kafka+Flume-ng 离线处理HDFS HA+RM HA/All on YarnHive 数仓Spark Mllib 模型训练l实时处理StormSpark streaminglEs实时搜索服务l全链路实时监控全链路监控全链路监控全链路监控全链路监控平台建设 Yum 源 Puppet Ansible Zabbix Ganglia
3、 平台建设 Puppet 配置统一管理 Ansible 自动化部署Puppet (Hadoop)Agent1Agent2.Master 1Master 2LVS平台建设 HDFS约束目录规范,严禁私自创建目录Quota限额,文件数、存储 YARN按作业类型划分固定的Queue(online/offline/bi/dw/default)Jobname 规范格式 zhangsanxxxl集群账号按部门、按业务分配用户 个人帐号仅供测试,组帐号上生产调度,Job提交需指定queuel数据权限 HDFS AcllJob管理工作流定义方式,通过配置文件,GitLab CI 自动提交未来展望 平台安全 自动化建设 数据质量平台安全l身份认证Kerberos l身份管理 LDAP l授权访问数据授权访问:SENTRY l安全审计l数据加密自动化建设l更自动化l更智能化数据质量l数据生命周期管理l数据间的血缘关系l数据格式标准化