《石鹏-美图:低成本全链路监控实战与SRE稳定性运营(61页).pdf》由会员分享,可在线阅读,更多相关《石鹏-美图:低成本全链路监控实战与SRE稳定性运营(61页).pdf(61页珍藏版)》请在三个皮匠报告上搜索。
1、 全球敏捷运维峰会 广州站围绕监控,浅谈SRE稳定性运营 演讲人:石鹏(东方德胜)美图 全球敏捷运维峰会 广州站AboutAbout me.me.石鹏(东方德胜)9年工作经历,传统行业&互联网运维 2016年加入美图,目前负责产品SRE团队 擅长领域:运维架构、SRE、监控/日志系统 当前:专注于云原生、智能运维方向 全球敏捷运维峰会 广州站美图公司(1357.HK)成立于 2008 年 10 月,以“变美”为基因开发了一系列产品,目前已经覆盖超过 100 个国家和地区,在全球拥有 22.2 亿用户。我们的愿景是:整合变美生态链,帮助用户全方位变美。ToBToB面向行业面向行业影像美化美妆平台
2、皮肤管理影像美化图片视频编辑工具高清试妆工具专业测肤工具皮肤档案服务皮肤医生服务化妆品测评服务颜值管家服务印刷品服务消费者社区桌面版美图秀秀影像行业解决方案美妆行业营销数据与技术服务行业测肤技术服务化妆品功效检测服务增值服务ToCToC面向面向用用户户About Meitu:美图公司业务体系 全球敏捷运维峰会 广州站日本孟加拉国韩国越南土耳其菲律宾泰国马来西亚印度尼西亚美国巴西尼日利亚墨西哥加拿大截2020年 12,海外活跃户数近 1 亿。此外海外用户总数达8.85亿,业务覆盖超过100个国家和地区。巴基斯坦BeautyPlusAirBrushVCUSPomelo面向用户美图秀秀美颜相机美拍剪
3、萌美妆相机美图问医 美图定制面向行业Meitu ADX广告流量联盟美图AI开放平台美图宜肤美图品牌星球美图云修About Meitu:全球布局 全球敏捷运维峰会 广州站About Meitu:变美核心数据2.61亿月活跃用户数22.2独立设备数照片和视频每月产生数60亿亿数据截至2020年12月美图SRE的核心工作职责低成本全链路监控大盘实践基于企业IM机器人的图文告警实践基于监控体系的SRE稳定性运营实践未来展望 全球敏捷运维峰会 广州站美图SRE的核心工作职责 全球敏捷运维峰会 广州站美图SRE的核心工作职责l 岗位:产品SREl 职责:保障线上服务的稳定性 建设工具/平台/基础设施 提升
4、效率 用技术手段来控制、优化服务的运行成本l 愿景:做美图服务最稳的大后方 全球敏捷运维峰会 广州站如何平衡3个核心职责之间的关系稳定性成本效率 全球敏捷运维峰会 广州站如何量化评估?If you cant measure it,you cant improve it.如果你不能度量它,你就无法改进它。-Peter Drucker 彼得.德鲁克 全球敏捷运维峰会 广州站如何量化评估?稳定性/效率SLO/SLIMTTR/MTBF成本资源使用量资源利用率一套稳定可靠的监控系统 必不可少 全球敏捷运维峰会 广州站低成本全链路监控大盘实践 全球敏捷运维峰会 广州站美图监控体系建设:监控组件选型eBPF
5、美图监控体系建设:梳理归纳流媒体监控业务监控服务监控用户端监控基础资源用户端质量监控体系服务端质量监控体系第三方拨测自研流媒体监控自研APM自研CDN监控大数据流式处理套件PrometheusInfluxDB套件ElasticStackOpenFalconeBPFSkyWalking网络质量&异常内容&DNS劫持崩溃&卡顿返回码响应时间错误率慢请求请求吞吐量组合分析直播推流/拉流点播拉流主播监控视频监控直播/点播统计CDN质量CDN评分CDN日志业务可用性访问量/错误Profile监控分布耗时Trace监控A/B Test监控日志中心DNS/ELB七层负载均衡进程/端口后端资源云PaaS服务S
6、LA体系产品运营指标云IaaS监控硬件监控网络监控专线监控TCP监控容器监控内核监控 全球敏捷运维峰会 广州站美图监控体系建设:统一报表入口结果:监控数据汇总到同一个平台,权限统一管控 全球敏捷运维峰会 广州站美图监控体系建设:报表收敛/规范客户端中间链路LB入口后端资源服务端周边依赖典型请求链路痛点:数据散落在多个Dashboard 全球敏捷运维峰会 广州站美图监控体系建设:报表收敛/规范Grafana中各种资源的申请和使用约束数据源的管理规范权限管理规范Org/报表命名规范结果:监控数据 汇总到同一张Dashboard形成流程规范 全球敏捷运维峰会 广州站美图监控体系建设:还可以更进一步么