1、 平安数据中心高可用运维白皮书 2018 年 5 月 前言 中国平安数据中心在十多年的发展过程中,遵从 ITIL、ISO9001、ISO20000、ISO27001、M&O 等多个标准,不断制定、优化数据中心的工作规范和指南,形成了一整套标准的运维体系。数据中心运维团队依据标准体系的指导,通过兢兢业业、一丝不苟的工作,保障了平安数据中心的高可用性。 平安数据中心的高可用离开不员工的辛苦工作,以及各供应商的保障支持,在此,特意向日夜奋战的员工和供应商进行特别的感谢。 为实现平安的企业社会责任,推动中国数据中心尤其是金融高可用数据中心的运维管理的提升,平安数据中心团队总结十多年的运维经验,编制了平
2、安数据中心高可用运维白皮书 ,旨在总结和分享平安数据中心在打造高可用金融+互联网数据中心的优秀经验,与行业内各专家同仁一道为国家大数据时代建设贡献力量。 感谢中国数据中心工作组组长钟总、 Uptime 北亚区董事总监胡总对本书的支持,感谢辛苦编制此书的作者。 本书若有错漏之处,恳请各位专家同行批评指正。 平安科技(深圳)有限公司数据中心 著 序 1 2009 年,中国平安开始规划建设深圳观澜数据中心,我有幸作为这个项目的总设计师,参与了整个项目的建设,见证了中国平安紧跟国家战略步伐,大力推进中国平安信息化之路。 中国平安作为中国金融行业较早建设数据中心的企业,对数据中心的建设和运维有着深刻理解
3、,培育造就了一批数据中心领域的专家,为平安集团步入“金融+互联网”3.0 时代、为中国数据中心行业健康发展做出了突出贡献。 数据中心全生命周期包括: 需求分析、 规划设计、 施工安装、 检测验收、 运维管理。其中运维管理是数据中心生命周期中最后一个、也是历时最长的一个阶段,真可谓:三分建设,七分管理。运维管理参与设计和实施,从项目开始就将运维需求落实到设计和实施中,其工作范围涵盖数据中心全生命周期,是通过科学运维管理,实现为业务提供数据信息支持,实现企业发展目标的过程。 本书是平安人不忘初心、牢记使命、不断奋进、努力实践的结晶。内容包括数据中心运维标准化建设、组织架构、安全管理、运维实践和质量
4、体系等。 本书凝聚了平安人对数据中心的热爱和孜孜以求的科学精神,感谢为此书出版付出辛勤劳动的编写团队,希望大家能从此书中得到启迪和帮助。 钟景华 中国数据中心工作组(CDCC)组长 2018.5 序 2 对于数据中心的标准: Uptime Institute 发展近二十年的 Tier 的分级拓扑(Topology)标准,通过 Tier I 至 IV 的标记系统以用来表示数据中心的物理基础设施的可用性。此标准自问世以来,已被全球广泛的採用在各地数据中心的设计及建置之中。 或許当有人因业务需要说:我想要个数据中心。就有人会转过身来说:我将为你建数据中心。 但是却没有多说是否他们在谈论着同样的性能产
5、出。 我常在一些场合里说:一个数据中心的生命周期, 在设计建置阶段可短至数月也有长到一至二年, 但其运营却长达十年或十几年。因此要设计及建置符合营运目标及维运需求的数据中心才是 Tier标准的精神所在。 Uptime Institute 的每年行业调查数据均显示:有一半左右的企业 IT 组织曾在过去 12 个月期间经历过他们自有数据中心影响业务的停机,也有近三分之一的企业 IT 组织在前 12 个月内曾经历主机托管提供商的服务中断。 对于这些事件大多指向: 操作员的人为错误。 这种说法可能涵盖了程序的错误和资源的缺乏, 或欠缺管理及不善决定。而且这些责任常都是落到操作人员在未能及时救援成功的情
6、况下。 其实大多数的情况,失败可以归因于高级管理层之决定(例如:设计妥协,预算削减,裁减工作人员,供应商选择及资源的分配) ,其可溯自事件发生之前的时间和空间的,譬如:什么决定导致前线操作人员没有好的准备或未受过足够的训练,因此对事件的反应作出处理不当的情况。 随着所有业务职能部门对数据需求不断的提高,如今的数据中心的 IT 和基础设施利益相关者持续面临巨大的压力,在实现价值的同时还要维护成本和效率。因此,数据中心管理和运营 Management & Operations (M&O) 的评估认证是可以提供相关指导和框架基础,也是推动实施数据中心有效的管理和运营的最佳实践。 数据中心管理及运营准