《浪潮&腾讯:2021年TIFDS数据中心服务器智能故障诊断系统白皮书(16页).pdf》由会员分享,可在线阅读,更多相关《浪潮&腾讯:2021年TIFDS数据中心服务器智能故障诊断系统白皮书(16页).pdf(16页珍藏版)》请在三个皮匠报告上搜索。
1、TIFDS数据中心服务器智能故障诊断系统白皮书腾讯:曾令新,牛犇,林哲伟,严勇浪潮:李道童,陈衍东,张春宏,韩红瑞,骆健,孙志杰,徐明,倪旭华目录目录 / 2数据中心服务器智能故障诊断系统白皮书背景01云和数据中心的发展趋势02TIFDS故障诊断系统介绍03TIFDS故障诊断创新实践助力腾讯云服务器智能化运营0405未来展望云计算的发展趋势产业互联网时代的智能化运营需求TIFDS故障诊断系统定义TIFDS方案架构介绍腾讯云服务器故障诊断体系介绍宕机类故障诊断非宕机类故障诊断故障预警与隔离专家规则分析,找到第一个故障触发源结合历史数据进行时间序列分析,实现智能回溯案例库建立,测试标准建立以及自动
2、化测试方法三大利器,减少人为判断,提高测试效率,保证固件发布质量全面定义日志格式,完美适配腾讯云运维监控系统带外一键日志采集功能和工具,配合腾讯云运维系统实现故障日志的自动采集和保存疑难问题自动识别上报监控系统,配合腾讯云运维系统实现自动化线上诊断分析带外日志输出明文化,运维人员可自行查看01 背景针对目前服务器运维的痛点问题,如何快速提升数据中心服务器的自动化明确故障诊断准确率,也成为一个复杂的系统级工程,如何能够构建一套贴合业务场景的服务器智能化故障诊断系统,不断降低运维成本,持续提升运维效能,成为业界一个亟待解决的新课题。腾讯云作为国内首家突破百万台量级规模的云厂商,长期致力于引领中国数
3、字经济的发展,构建更具创新力的基础设施运营。浪潮作为全球前三,国内第一的服务器龙头企业,秉承创新的理念,以为客户创造价值和为企业增加效益为使命,通过强大的研发能力和创新能力,为客户提供领先技术。双方基于多年来海量服务器的运营经验积累与创新实践,共同探索服务器运营发展趋势,制定了数据中心服务器智能化故障诊断方案框架,并希望通过数据中心服务器智能故障诊断系统白皮书为行业带来一些革新的思路和视角。随着云技术的普及,尤其是“新基建”,“数字化转型”等需求驱动着数字经济的高速发展,服务器在CDC数据中心的部署规模也呈指数级增长。随之而来的运维管理复杂度和难度也越来越大,而传统的海量服务器数据中心的故障运
4、营也面临着更大的挑战和更高昂的成本,从最初的脚本运维、工具运维到平台运维演进至今,人力已接近极限,越来越无法满足快速修复故障和恢复业务运行的要求。01 背景 / 3数据中心服务器智能故障诊断系统白皮书大规模数据中心运维存在如下的痛点问题:机器故障后,重要的日志信息不全,无法自动准确进行故障部件定位;故障诊断效能较低,服务器出现问题后主要基于人工分析和经验判断结果,自动化与智能化程度不高。成本高时效性差,人工经验分析依赖大量运维人力投入并导致较长的运维时间(MTTR),影响业务的快速恢复。由于诊断结果的明确化率低,引起二次故障维修比例较高,导致额外数据迁移成本和业务影响。1.2.3.4.中国云计
5、算市场规模突破千亿, 并持续两位数增长。 纵观整个云计算发展的发展史, 主要有4 个阶段 :我们当前已经处在了云的产业化阶段,腾讯云作为产业互联网的主要倡导者,积极的响应国家“新基建“号召,已在全球27个地理区域部署了150+个数据中心,并在2020年投入建设了可容纳百万服务器的清远云计算数据中心,成为了腾讯云首个开服的超大规模数据中心,也是华南区迄今为止最大的新基建项目。为了更高效准确地管理百万级服务器,智能化的监控诊断系统必不可少。腾讯云也长期致力于将智能化应用冗余服务器运营,通过分析大量服务器运营数据,不断进行故障模型学习训练,联合浪潮共同研发业内领先的TIFDS故障诊断系统。02 云和
6、数据中心的发展趋势02 云和数据中心的发展趋势 / 4数据中心服务器智能故障诊断系统白皮书云计算的发展趋势产业互联网时代的智能化运营需求虚拟化阶段实现软硬件解耦和资源池化,从而达到局部效率和可靠性提升的目的服务器化阶段将独立的技术能力包装为整合的服务输出,包含云计算的三个分层IaaS、PaaS、SaaS等产业化阶段产业互联网阶段,通过云计算技术助力产业进行变革,打造行业生态 与解决方案,助力传统行业上云迁移 / 云转型标准化阶段建立标准化流程,使公有云, 私有云,多云互通无缝迁移 ; 提高云服务便捷性, 就像使用水和电方式一样使用云服务03 TIFDS故障诊断系统介绍03 TIFDS故障诊断系