《大数据技术沙龙会议报告:数据成本治理在有赞的实践-更木.pdf》由会员分享,可在线阅读,更多相关《大数据技术沙龙会议报告:数据成本治理在有赞的实践-更木.pdf(35页珍藏版)》请在三个皮匠报告上搜索。
1、有赞大数据技术沙龙2020.12庭湾powerYOUZAN#page#数据成本治理在有赞的实践王永宁(更木)数据中台-数据资产治理庭湾powerYOUZAN#page#contents背景介绍问题梳理治理实践总结规划Y#page#背景介绍Y#page#背景介绍离线计算实时计算平台工具数据中台机器资源研发资产HbaseDruidSpark平台平台西埋点平台平台算法在线HiveKafkaFink平台平台1800100+20+机器数应用数存储量(PB)Y#page#背景介绍2019有赞2019有赞总收入数据成本增长100%增长100%难以持续增长Y#page#问题梳理Y#page#问题梳理机器资源的
2、整体利用率偏低存储资源增长过快,存在浪费缺少标准节能降本渠道扩缩容成本高成本没有量化只有数据管理者/运维关心,其他同学意识相对薄弱开发者缺少渠道了解离线计算优化空间很大Y#page#治理实践成本量化成本账单降本实践成本运营Y#page#成本量化开发者视角菌三SQL统一视角Sql指标行数py脚本羊管理员视角金额口口口CPU磁盘网卡内存其他Y10#page#成本量化成本总量稀缺性分摊逻辑分时计费运维资源单价资源总量合理水位采集损耗存储采集SDK计算消耗资源时间数据成本=资源单价*消耗资源Y#page#成本量化核算流程(以离线计算为例)总成本:total_costmemory资源水位:memory.
3、loadmemory资源权重:memory_index总cpu核数:total_cpucpu资源水位:cpu_loadcpu资源权重:cpu_index总memory量:total_memorymemory的成本单价memory_price=total_cost*memory_index/(total_memory*memory_load)(peorndo,ndo etot)/xopurndo,tsooetor= aoud ndo4商女bEndo资源分时计费任务成本taskoly_priceaMnicpu消耗:usOCRB点最memoryUSE99点启静9点-16点次之青铜时段白银时段黄金时段
4、Y#page#成本量化一基础模型数据分层dodkpuspo)存储库部门责任人表task log计算任务整体业务域业务线多粒度核算(以离线为例)Y#page#成本账单-业务域管理业务域管理业务美业有赞云爱按育自铺8m业务线个数仓域数仓域TI交易店铺中台/平台/模块域报信销售员现行的业务域管理方式Y#page#成本账单-业务分摊业务线成本分摊示意图次分融订单表各业务战订平台工具分附成本单量比例独占成本11号时取终比界平台域分摊成本业务线成本应用数据通用分弹成分摊成本1次捷后比保数据通用验占成平台域致占或本平台工具始占成本Y#page#成本账单-数据模型业务线部门业务域用户维度资产类型耗用成本CUB
5、E可降成本已降成本指标Y#page#成本账单-SparkCube全局通过SparkCube实现的GroupingSets成本钻取分析路径部门(cost)asset.id个人ouping 5etsCO,14id)店1Ddep,asset_td),1表Y#page#成本账单-总览中楼服务用户分析人员7.007.7707查询服务动态趋势数据基础统一接入p平台工具.com资产类型#page#治理实践成本量化成本账单降本实践成本运营Y#page#降本实践延退启动下线低优先级任务,延退启动,错峰执行利用全链路血缘能力,智能挖掘“无用”数据,结合人工判断,促进下线小文件合并任务调优spark不能自动进行文件
6、合并任务倾斜/语法优化合并小文件以提高task利用率合理使用数据普换高转低频老数据不再维护,新数据成本更低重复计算探查,合井小时级是否是必要的?是否需要每天运行?Y#page#降本实践-数据下线交互流程目标:便捷、安全、高效的清理无效数据如何衡量无效数据?下线优先级申请下线外部请求下游无依赖关系数据近n天无访问女条件组合&参数加权,无调度产出中用户显式标注废弃数据owner结果通知外部系统资产平台结果返回低重复开发,高相似度Y#page#降本实践-数据生命周期管理实现拓展hive元数据的TBLPROPERTIES,