《4-马浩_沐瞳出海实践业务分享之大数据成本优化_1_副本.pdf》由会员分享,可在线阅读,更多相关《4-马浩_沐瞳出海实践业务分享之大数据成本优化_1_副本.pdf(32页珍藏版)》请在三个皮匠报告上搜索。
1、基于基于AWSAWS的大数据系统成本优化方案的大数据系统成本优化方案沐瞳沐瞳出海实践业务分享出海实践业务分享马浩马浩-大数据运维负责人大数据运维负责人上海沐瞳科技上海沐瞳科技ContentsContents目录目录项目背景项目背景沐瞳大数据架构简图沐瞳大数据架构简图我们的挑战我们的挑战如何提高计算资源的利用率,从而降低计算成本如何对数据进行分层,从而在数据上升的情况下降低整体数据成本如何有效对存储数据进行监控/管理/筛选,从而辅助进行数据分层,并有效解决冗余数据的问题如何提高计算资源的利用率,从而降低计算成本?离线计算弹性伸缩离线计算弹性伸缩-针对工作周期性进行优化针对工作周期性进行优化离线离
2、线计算的工作方式计算的工作方式-利用率周期明显,部分任务定时进利用率周期明显,部分任务定时进行行6:00 am0:00 am12:00 am6:00 pm12:00 pm利用率通过通过弹性伸缩进行计算利用率的提升弹性伸缩进行计算利用率的提升将一定比例的常驻机器转化为弹性资源当产生业务需求时再对应拉起这件部分的计算资源以确保整体资源利用率保持在一定的程度弹性伸缩的技术实现弹性伸缩的技术实现通过ASG进行弹性组的定义通过Eventbridge进行定时任务触发通过System Manager进行内外环境初始化以及任务启动离线离线计算的工作方式计算的工作方式-利用率周期明显,部分任务定时进利用率周期明
3、显,部分任务定时进行行6:00 am0:00 am12:00 am6:00 pm机器成本12:00 pm利用率机器成本成本优化量如何对数据进行分层,从而在数据上升的情况下降低整体数据成本?S3S3存储层成本优化存储层成本优化-针对冷热数据进行数据分层针对冷热数据进行数据分层大数据大数据存储存储困境困境S3存储分布存储分布待删除数据需冷备数据S3S3存储现状存储现状存储成本三大问题:S3S3数据存储分层解析数据存储分层解析存储类别存储类别存储价格存储价格请求价格请求价格访问速度访问速度访问场景访问场景Standard贵便宜快热数据存储Standard-IA便宜偏贵快冷数据存储Glacier非常便
4、宜贵慢归档冷数据数据成本=存储成本+访问成本AWS S3存储针对数据的访问冷热,提供了多种存储类型以及计费方式善用不同存储类型,能极大地优化整体存储成本S3S3数据存储分层解析数据存储分层解析010000200003000040000500006000070000800005000100001500020000数据成本随请求变化图数据成本随请求变化图StandardStandard-IAGlacier单位:USD单位:K req右图为假设存储2000TB数据时,数据成本随着月请求量变化的数据假设每上升1000K req,数据检索量上升1000GB可看出,standard数据的成本几乎不变化,I
5、A变化较明显,而Glacier随着请求上升,成本的变化非常剧烈S3S3数据存储分层解析数据存储分层解析热数据成本热数据成本冷数据成本归档数据成本根据数据的实际访问情况以及业务形态,主动进行S3数据冷热分层,可有效降低整理成本S3S3存储类存储类别与成本别与成本优化优化S3S3存储类别与成本优化存储类别与成本优化准确的识别数据的冷热对降低成本至关重要准确的识别数据的冷热对降低成本至关重要问题问题:如何识别:如何识别S3S3中数据的冷热?中数据的冷热?如何有效对存储数据进行监控/管理/筛选S3S3存储清单存储清单+日志分析日志分析+Class+Class AnalysisAnalysis如何如何有
6、效地监控有效地监控BucketBucket的数据情况以及增量情况?的数据情况以及增量情况?每天的数据总量是多少?有多少文件?变化趋势是什么?如何准确地获取所有需要清理的冗余数据的清单?是否可以针对数据系统,进行Bucket Prefix Object级别的筛选和Group?是否能做更进一步的数据分析?解决方案解决方案:S3S3 InventoryInventory什么什么是是S3S3 InventoryInventoryS3 Inventory 会每天根据我们需要的字段,从Bucket中读取所有Object的元数据所有的这些元数据可汇总成当天的S3基表通