《3-石鹏-美图FinOps探索之路.pdf》由会员分享,可在线阅读,更多相关《3-石鹏-美图FinOps探索之路.pdf(50页珍藏版)》请在三个皮匠报告上搜索。
1、美图FinOps探索之路石鹏(东方德胜)美图公司 高级运维经理讲师简介石鹏(东方德胜)美图公司 高级运维经理请插入您的照片2016年加入美图,运维技术专家,美图产品SRE负责人。目前在美图负责社区、商业化、创新、实验室、影像SaaS等全线产品的运维保障工作。多次参与或主导过公司基础设施的调整、改造,在监控、灾备建设、故障管理、稳定性运营等方面有一定的经验和积累。业界多个技术大会的分享嘉宾、金牌讲师或出品人。目录VUCA&SRE&FinOps推行FinOps的一些框架参考美图在FinOps方向的探索AIGC浪潮下的FinOps开展SREFinOps目录UVCA&SRE&FinOpsVUCAVol
2、atility(易变性)Uncertainty(不确定性)Complexity(复杂性)Ambiguity(模糊性)RUPTBANIuRapid(急剧)uUnpredictable(莫测)uParadoxical(矛盾)uTangled(缠绕)uBrittle(脆弱)uAnxious(焦虑)uNonliner(非线性)uIncomprehensible(不可理解)1990s20182022https:/www.vuca-world.org/vuca-bani-or-rupt/从VUCA时代聊起美图SRE的核心工作职责 岗位:产品SRE 职责:保障线上服务的稳定性建设工具/平台/基础设施 提升效
3、率用技术手段来控制、优化服务的运行成本 愿景:做美图服务最稳的大后方SRE的目标:寻求三个核心职责之间的平衡稳定性成本效率三个核心职责 与 企业发展的关系稳定性成本效率+安全降本增效安全生产+让企业活着让企业获得优势FinOps目录推行FinOps的一些框架参考https:/www.finops.org/introduction/what-is-finops/框架/体系:FinOps FrameWork框架/体系:FinOps成熟度模型框架/体系:DevXOps/FinOps vs AppLifecyclePlanCodeBuildTestReleaseDeployOperateDevSecO
4、psDevPerfOpsAIOpsDataOpsGitOpsChatOpsFinOpsX-Ops不管白猫黑猫,能抓住耗子就是好猫。Value岗位价值technical Cost技术花费Availability tolerance可用性容忍度People人力投入框架/体系:成本管控之不可能三角框架/体系:成本优化的核心逻辑成本开销=资源单价*资源实际用量=资源单价*(资源理论用量/资源利用率)目录美图在FinOps方向的探索围绕资源利用率的探索20162017基于机器负载,CPU/MEM利用率指标的资源管控;初步建立成本意识;基于成本决策中心的实践20182020建设MTCC,实现成本归集,成本
5、摊分细化,提升ROI量化能力;20192020 美图业务全量上云20202022系统重构,适配多云环境;分摊算法优化,分析功能增强;体系化的FinOps尝试2022卷入更多人员角色,建立健全组织,刷新规范流程;体系化运营:SRE CostBP,预算提报,月度对账,例行分析探索/实践:几个阶段的概述单台机器Load指标(Mem,CPU同理).=+!#$#()/100获取全天负载监控值(sys.load_per_core:一分钟负载按逻辑核数平均数),并排序取排序后最高的前100个值求平均,作为该机器负载指标PS:Mem指标:mem.memused.percentCPU指标:cpu.idle,由于
6、cpu.idle为空闲值,为获取占用值,计算时取反,即100减去该值探索/实践:Phase1-围绕资源利用率的探索单台机器探索/实践:Phase1-围绕资源利用率的探索机器组(按部门)Load利用率(Mem,CPU同理).=(%&()%*+%_%&(!-_%&()/load.countUsed=!#)(+.(+).UnUsed=servers.count*(100 Used)PS:部门中每天台机器取其全天load的均值作为其load指标(此处为全天均值,非top100均值)将每台机器的load相加,获取部门Load使用总量使用部门Load总量减去Load总量,获取Load未用总量探索/实践:P