《1-杨雪-容器云独享集群混沌实验探索.pdf》由会员分享,可在线阅读,更多相关《1-杨雪-容器云独享集群混沌实验探索.pdf(38页珍藏版)》请在三个皮匠报告上搜索。
1、容器云独享集群混沌实验探索杨雪360平台技术测试部测试开发专家杨雪2019年加入360作为云业务测试接口人负责容器云、云计算管理平台等项目质量保证工作360平台技术测试部测试开发专家嘉宾照片目录CONTENTS背景和挑战01 思考和解决-独享实验环境构建02 思考和解决-快速建立观测系统03 思考和解决-标准化解决方案04 总结和展望05 01背景&挑战背景360云操作系统基础设施服务器网络设备安全设备弹性计算虚拟机裸金属容器计量计费大屏展示集群管理运维管理监控告警操作审计配额管理人员权限组织架构BGP/专线GPU存储服务块存储对象存储网络服务负载均衡物理网络基础云平台服务文件存储虚拟网络VP
2、N日志服务云防火墙主机安全安全组秘钥管理安全服务数据治理数据存储机器学习计算与分析人脸/车辆OCR识别语音识别视频结构化消息队列微服务DevOps关系型数据库时序数据库缓存数据库数据仓库大数据平台多数据中心管理双活|灾备云边协同设备管理设备通信设备接入设备认证API网关推流内容审核视频采集实时转码人工智能服务IoT平台视频服务数据库服务微服务中间件SaaS服务视频云 点播|直播智能安防平台物联网平台协同办公 云盘|IM安全合规攻防演练态势感知安全体系安全大脑云安全终端安全流量安全安全实训浏览器360云计算平台对内对外提供一站式的云平台解决方案,融合计算虚拟化、软件定义存储、软件定义网络、容器、
3、数据库等技术在中台内部向上支撑大数据、人工智能、视频云等项目在公司内支撑游戏、金融、搜索、办公等海量集团业务背景360容器云基于多年来对容器集群管理的实际使用经验,在kubernetes开源架构的基础上打造的可对外私有化的容器云平台,支撑容器业务在用户私有环境内部落地背景混沌实验“被动挨打”-”主动出击”模拟不可预测的事件观测系统行为,以了解系统可靠性稳定性的方法提高效率节省成本快速迭代缺少鲁棒性验证方案上容器稳定性担忧、信心缺乏容器云业务背景混沌工程:在分布式系统上进行的有经验指导的受控实验,目的是观察系统行为、响应并发现系统缺陷,以建立对系统承受生产环境中湍流条件的能力和信心提供了一种端到
4、端的稳定性测试理念与工具框架,通过主动引入故障来充分验证系统和应用的脆弱性,提前发现并解决问题,力求防患于未然,从而从根本上提高系统和应用的鲁棒性挑战业务上云的实验环境怎么准备?如何验证实验结果?实验具体怎么实施?混沌实验如何快速提供资源隔离的实验环境?如何建立有效的稳定性观测系统?如何将混沌实验服务化?实验环节复杂度高实验环境搭建实验场景设计实验指标监控02思考和解决 独享实验环境构建独享实验环境构建公共集群独享集群如何为快速提供资源隔离的混沌实验环境?方便我们更好地模拟集群级别的极端场景,而不给线上集群引入风险托管集群使用线上已有公共集群作为实验环境局限性:极端场景构建需要天时地利人和风险
5、高:易引发线上集群风险问题,影响其他业务用户需要自己搭建集群并托管给容器云平台作为实验环境动力不足:沟通成本高、部署成本高、运维成本高方便模拟基本的运维场景资源隔离、不影响其他业务独享实验环境构建优势自动化实验环境构建弹性资源调度自动化创建独享集群独享实验环境构建-自动化实验环境构建如何快速、有效创建管理不同配置的集群??思路方案Base集群独享集群x独享集群A独享集群B独享集群CK8s onK8s问题独享实验环境构建-自动化实验环境构建K8S on K8S(1)kubecluster以deployment方式运行包括api-server、controller-manager、schedule
6、r在内的容器(2)kubecluster以statefulset方式运行3副本etcd,作为k8s数据存储(3)业务可以给独享集群添加服务器作为worker节点。(4)独享集群自动安装组件,提供基础的网络、监控等基础服务独享实验环境构建-自动化实验环境构建“一键”构建实验环境初始化集群KubeCluster(controlplane+etcd)创建 VM、Storage、VIPK8s Base ClusterHULK-openstack初始化添加节点(runtime)Kubelet containerVMs系统组件安装Cilium CoreDNS Ingress独享集群独享实验环境构建-弹性资