《2019年陌陌大数据平台在SLA驱动下的演进实践.pdf》由会员分享,可在线阅读,更多相关《2019年陌陌大数据平台在SLA驱动下的演进实践.pdf(33页珍藏版)》请在三个皮匠报告上搜索。
1、陌陌大数据平台在 SLA 驱动下的演进实践业务技术志源数据应数据资产1 数据产与保障2 数据使赋能3 基础能开放业务诉求离不开数据数据基础架构团队数据仓库|数据服务|数据平台团队介绍?HDFS Router Based FederationAlluxioHBaseKafkaYARN Federation With Node Label(Docker On Yarn)CPUMEMORYGPUMapReduceTezSparkFlinkTensorFlowK8SPyTorchMPIMorseHiveOozieDr.elephantKylinPhoenixDruid?团队技术栈 SLA:-科学量化合
2、理业务对数据产稳定性的诉求-持续提升系统迭代演进的客观衡量标准 保障 SLA 的盾:-主要盾:速增的业务诉求VS有限增的平台算-次要盾:平台算与服务复杂性VS服务运维管理能 我们的SLA定义:-核数据产出时间基础户属性|活跃情况|订单集成-数据就绪率基础数据|报表数据|产导出数据-数据就绪达标率,季度|SLA 稳定性SLA 问题需求增量(作业数量)算平(集群节点)SLA 表征(异常险)简单快速堆机器简单快速堆机器满需求增满需求增单机房容量与单集群性能限制算增机房与集群级平扩展能满算增多机房多集群复杂性引运维稳定性险1.01.0 阶段阶段2.02.0 阶段3.0阶段3.0 阶段4.0阶段4.0
3、阶段阶段需求规模需求规模(作业量:300 6000)作业量:300 6000)算规模算规模(集群节点:20 400)集群节点:20 400)需求规模(作业量:10000)算规模(集群节点:600)需求规模(作业量:40000)算规模(集群节点:1500)需求规模(作业量:100000)算规模(集群节点:2000)p 业务快速增:-数据仓库对外提供服务基础户属性|活跃情况|订单集成-直播业务速增基础数据|报表数据|产导出数据 解决思路:-服务扩容加机器计算节点|存储节点-需求优化数据流优化|作业参数优化-具与稳定性优重点环节具化1.0 阶段:2014 2016p 主要盾:速增的业务诉求与平台算V
4、S段简单的集群管理算扩展:平扩容算算挖掘:关键任务难以加机器解决稳定性:段简单,临时解决 特定任务节点单独优化:-数据模型与计算流优化中间表提取|JOIN 顺序调整-系统参数调优并度|数据倾斜优化 优化收益总结:-业务层改造成本低,但收益明显部分例 1完成|收益 90 分钟-50 分钟-边际效应同个作业难于持续获得收益-优化难于泛应,约束条件较多case by case 解决|Hive 本的 CBO 受限于版本 BUG1.0 阶段:算挖掘 特定任务优化 重点环节具化:-数据集成(DUMP)动重试|资源分配|数据校验-ETL 管理(COORD)结构规范|上下线 Review|屏蔽统调度系统配置-
5、数据导出(PUMP)降低为错误|快速恢复1.0 阶段:稳定性保证 具化需求增量(作业数量)算平(集群节点)SLA 表征(异常险)简单快速堆机器满需求增单机房容量单机房容量与单集群性能与单集群性能限制算增限制算增机房与集群级平扩展能满算增多机房多集群复杂性引运维稳定性险1.01.0 阶段2.0阶段2.0 阶段阶段3.03.0 阶段4.0阶段4.0 阶段阶段需求规模(作业量:300 6000)算规模(集群节点:20 400)需求规模需求规模(作业量:10000)作业量:10000)算规模算规模(集群节点:600)集群节点:600)需求规模(作业量:40000)算规模(集群节点:1500)需求规模(
6、作业量:100000)算规模(集群节点:2000)p 原 IDC 增瓶颈法扩容:-服务不能时间停服迁移存储服务|计算服务|流式任务-可现成运维具不服务监控指标采集不|资源管理混乱p 单集群出现性能压 SLA 不退化临挑战:-HDFS NN 法垂直扩容Memory:192 G-HDFS NN 启动耗时增加故障影响范围|影响时间 解决思路:-引擎升级(MR-Tez)整体作业计算效率提升-流式数据集成保证 SLA 在迁移与优化时间内不退化-机房平滑迁移数据量|时间紧-NN 启动优化启动模拟|参数优化|逻辑优化2.0 阶段:2017p 主要盾:业务诉求持续增VS平台算增遇到瓶颈算挖掘:满 1个季度需求