1、全球软件测试技术峰会9月北京从压测到拨测:阿里云全链路性能测试和服务可用性监控解决方案2025.09.06Conference Speaker讲演人 俞嵩阿里云云监控网络分析与监控(拨测)和PTS 性能测试产品研发负责人01拨测&压测如何打造稳定可靠的云上业务02基石一:压测03基石二:拨测04融合:拨测&压测+可观测家族05展望:AI 重构Content 目录拨测&压测如何打造稳定可靠的云上业务#.现代互联网应用的挑战问题Problems 亿级用户流量,系统如何不崩?崩了?如何快速发现,定位,逃逸,修复?挑战Challenges流量洪峰不可预测突发营销活动、热点事件带来的瞬间流量暴增云上架构
2、依赖复杂微服务,多地域部署,第三方依赖复杂用户体验要求提升秒级响应,7X24小时可用性成为基本要求拨测&压测如何打造稳定可靠的云上业务业务挑战秒杀,618/双11的流量洪峰瞬间流量可达日常10-100倍多地域部署下的跨网络链路复杂性,网路延迟,带宽瓶颈,容灾切换第三方依赖带来的脆弱习惯 支付,DNS,CDN任一环节故障影响全局#.阿里云的实践与洞察压测阶段:上线前容量验证与瓶颈识别拨测阶段:上线后持续监控与告警监控分析:全链路可观测性与智能运维拨测&压测如何打造稳定可靠的云上业务拨测与压测在云原生应用开发中的核心作用云基础设施与平台服务容器服务Kubernetes微服务网关API Gatewa
3、y服务网格Service Mesh负载均衡Load Balancer自动伸缩Auto Scaling消息队列Message Queue数据库Database缓存服务CacheCDNContent Delivery压力测试在云原生中的核心价值弹性扩缩容验证:验证HPA/VPA自动扩缩容策略微服务性能边界:测试服务间调用链性能瓶颈容器资源配额:优化CPU/Memory limits设置容器资源配额:优化CPU/Memory limits设置云资源成本优化:基于压测结果优化资源配置多云环境测试:跨云跨区域性能一致性验证拨测监控在云原生中的核心价值多地域可用性监控:全球多个监控点实时检测服务状态端到端
4、业务链路:模拟真实用户业务流程完整性SLA合规性检测:持续监控服务等级协议达成情况版本发布验证:蓝绿/灰度发布过程实时监控故障快速定位:结合链路追踪快速锁定问题根因用户体验监控:真实模拟用户操作体验质量云原生应用开发层微服务架构 容器化部署 DevOps流水线 持续交付云原生环境特有挑战复杂性挑战:分布式系统复杂调用链、动态服务发现和注册、多层网络代理和负载均衡弹性挑战:自动扩缩容触发时机、冷启动延迟影响、资源配额和限制策略监控挑战:短生命周期容器实例追踪云原生压测&拨测最佳实践压力测试:基于容器的分布式压测、结合Kubernetes HPA策略验证、微服务链路性能基线建立拨测监控:多云多区域
5、监控节点部署、业务关键路径持续验证、结合APM工具深度分析推荐工具:阿里云PTS+容器服务ACK,阿里云拨测+链路追踪,Prometheus+Grafana+Jaeger核心价值:高可用性、高性能和优秀用户体验通过压测验证弹性伸缩策略,确保应对突发流量通过拨测持续监控全球用户访问质量优化云资源配置降低成本快速发现和定位分布式系统问题支持多云混合部署场景数据支撑DevOps流程,实现真正的持续交付和持续监控基石一:压测阿里云性能测试PTS性能测试性能测试 PTSPTS 作为作为云原生压测平台,服务阿里巴巴全生态多年,支持了天猫双 11、双 12、年货节等大促活动,为测试工程师、研发工程师、运维工
6、程师等不同角色提供开箱即用的一站式压测平台,满足日常态压测、大促态压测、接口功能测试、网络测试的各种性能测试和稳定性测试需求。PTS 无需托管施压集群,零运维成本即可从全球 24 个主要流量地域发起压测,精准模拟真实用户分布。通过压测链路拓扑感知压测范围,并提供压测指标大盘,压测中全局监测业务、应用、容器、SLB、数据库等水位,提供完善的调用链下钻分析和性能瓶颈分析能力,更快更准更便捷的定位性能问题。基石一:压测阿里云性能测试PTS压测场景业务上云大促活动常态化压测规格选型网关性能测试微服务、中间件性能测试容器性能测试数据库性能测试压测报告压测 Grafana 大盘性能基线对比全景快照容量评估