《阿里云:升舱-数据仓库升级交付标准化白皮书(2022)(54页).pdf》由会员分享,可在线阅读,更多相关《阿里云:升舱-数据仓库升级交付标准化白皮书(2022)(54页).pdf(54页珍藏版)》请在三个皮匠报告上搜索。
1、升舱-数据仓库升级阿里云数据库产品事业部交付标准化白皮书Technology Service Standard for Upgrade-Data Warehouse upgradeA L I B A B A C L O U D D ATA B A S E D E PA R T M E N T2阿里云智能全球技术服务部(Global Technology Services,简称 GTS)是一支面向云智能客户,提供完整生命周期服务的技术履约团队。旨在通过专业化的交付实施、系统化的中台支撑及标准化的服务产品能力,运用云和数据智能的力量,联合生态伙伴一起帮助客户实现业务价值。阿里云新金融事业部致力于为
2、金融行业客户量身定制云服务,运用领先技术全面助推金融行业数字化转型进程,并承载着拉通和联动阿里巴巴所有面向金融行业服务力量的使命,深耕云+Fintech的技术和业务能力整合。截至目前,借助阿里云的技术方案,已服务 6 家国有大型商业银行、12 家股份制商业银行和 90%的已上市商业银行,同时覆盖 60%以上保险企业、证券公司,及三方和四方支付客户。作为中国数据库市场的领导者,阿里云数据库产品事业部可以提供一站式全链路数据管理与服务,拥有云原生数据库 PolarDB、云原生数据仓库 AnalyticDB、云原生多模数据库 Lindorm 等丰富的数据库产品和工具组合,通过云上和云下灵活的部署方式
3、,为全球客户提供多样性的选择。目前,阿里云数据库市场份额稳居全球前三,亚太第一,在国内遥遥领先,并在 2020 年进入 Gartner全球数据库领导者象限,成为在基础软件领域首次进入领导者象限的中国企业,代表中国数据库真正走进世界一流。主编单位阿里云智能全球技术服务部阿里云智能新金融事业部阿里云智能数据库产品事业部编委会版权声明总 编 辑顾 问主 编编 辑视 觉 设 计:李津、刘湘雯、李飞飞、刘伟光:张瑞、王馨、黄欢欢、王德会、罗龙九、张翅、王伟民、林亮、魏闯先、李圣陶、冯程、薛菲、王德山:戈林锋、王真、肖齐治、李靓雯、罗成对:王腾、汪国辉、王宗瑞、卞中明、金川、赵可可、余从佳、杜雄、周晓林、
4、谷磊:马龙泽、王甸甸本白皮书由阿里云依法拥有其知识产权。非经阿里云书面授权,任何人不得擅自使用、修改、复制、公开传播、散布、翻译、发行或公开发表本文档的任何内容。凡转载或引用本文的观点、数据,请注明“来源:升舱-数据仓库升级交付标准白皮书”。违反上述声明者,阿里云将追求其相关法律责任。建议和意见反馈,请通过邮箱:linfeng.glfalibaba- 与我们联系。升舱-数据仓库升级交付标准白皮书前 言在全球疫情的深刻影响下,世界经济一片萧条,数字经济展现出独特的魅力,数字化转型也成为各行各业的共识。疫情在某种程度上加速了全球产业数字化转型的步伐,数据成为了主要生产要素,也是数字时代的核心基础资
5、源。基于数据资源,传统产业的生产方式、商业模式、管理模式以及创新模式都在重新定义。习近平总书记指出:“数字技术正以新理念、新业态、新模式全面融入人类经济、政治、文化、社会、生态文明建设各领域和全过程,给人类生产生活带来广泛而深刻的影响。”2021 年 12月 27 日,中央网络安全和信息化委员会印发“十四五”国家信息化规划,该规划中明确提出了要建立健全规范有序的数字化发展治理体系。这也将推动营造开放、健康、安全的数字生态,加快数字中国的建设进程。“十四五”时期,我国数字经济将继续深化,根据国务院印发的“十四五”数字经济发展规划,到 2025 年,数字经济迈向全面扩展期,数字经济核心产业增加值占
6、 GDP 比重达到 10%;其中金融、电信、电力等行业作为数字经济基础行业,随着数字化转型不断升级,自主可控、安全可控被重点提及,要求应用于关键核心业务,赋能产业转型升级,实现应用推广与业务创新。2022 年 5 月,全国政协在京召开专题协商会,围绕“推动数字经济持续健康发展”进行协商议政,国家发改委下一步的工作将围绕规划落实,并研究起草推动数字化转型的指导意见,并组织专项工程和布局数字化转型促进中心,从而提升行业整体的数字化水平和提供相应的数字化转型公共服务。数字技术迭代创新速度加快,在追求较高的社会生产力和资源优化配置的同时,数字化的发展、转型、治理可以有效的营造良好的数字生态。TECHN
7、OLOGY SERVICE STANDARD FOR UPGRADE-DATA WAREHOUSE UPGRADE根据国际数据公司(IDC)预测,到 2023 年,中国的数据量将达到 40zb,其中超过 80%是非结构化数据。随着 5G 技术的普及,企业数据将成为中国数据的主流,数据市场将成倍增长。而数据仓库作为数据密集、计算密集的数据集中处理平台,是数据承载、数字化转型不可或缺的一环。长期以来,国外数据仓库平台厂商包括 Teradata、Exadata、Netezza 等在过去几十年一直是金融、运营商等重点行业的重要选择,直到今天这些国外的基础技术平台在很多单项技术能力方面仍然具有非常强的竞
8、争力。但随着各行各业数字化转型的深入推进以及 IT 系统自主可控的政策性鼓励,传统数据仓库平台迎来了转型升级的重要窗口期。出于服务国家“十四五”数字化转型和基础软件国产化战略,阿里云重磅推出“升舱计划”,将阿里标准化产品、多年实践、成熟方法论结合,旨在解决传统数据仓库升级转型面临的诸多新变化,为行业客户提供全新的数仓应用体验。数据仓库升级交付标准白皮书白皮书,既是阿里云结合金融、运营商等关系国计民生重点行业大量项目实践经验的分析总结,也是深入研究传统数据仓库如某传统数据仓库厂商等交付流程和价值创造方式的阶段性成果,更是针对传统数据库仓库升级交付的方法、工具、平台等体系化建设的实践指引。数据仓库
9、交付标准化白皮书2466792728293236数仓升级的三个目标数仓升级的四个原则升级实施的五大关键点行业变化与系统痛点数据仓库升级主要内容升级交付流程标准化交付内容工具化小结135172225行业趋势与困惑实施标准与实施路径总结与展望数仓升级成功的关键点成功迁移典型案例:申万宏源数据仓库升级附:数据仓库升级实施云上组件实施标准路径实施质量标准升级实施交付阵型CONTENT缩 略 语GTS,Global Technology Services,全球技术服务部CBM,Cloud Business Manager,云商务经理SA,Solution Architect,解决方案架构师CSM,Cus
10、tomer Success Manager,客户成功经理BA,Business Architect,业务架构师TM,Technical Manager,技术经理PMO,Project Management Office,特指项目可交付性管理PD,Product Designer,产品经理QA,Quality Assurance,质量保障TAM,Technical Account Manager,客户技术经理PDSA,Product Designer&Solution Architect,产品架构师ISV,Independent Software Vendors,独立软件开发商升舱-数据仓库升级
11、交付标准白皮书1数据库已经在信息技术领域有了广泛的应用,我们日常的社会生活也宛如一个巨大的数据存储仓库,每个个体产生的活动都是各种各样的数据。作为数据库的一个分支,数据仓库概念的提出晚于数据库概念。关于何为数据仓库,数据仓库之父比尔恩门(Bill Inmon)在 1991 年出版的“Building the Data Warehouse”(建立数据仓库)一书中所提出的定义被广泛接受:数据仓库是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策(Decis
12、ion Makeing Support);我们从该经典定义中也可以看出数据仓库是对有数据模型的、对海量结构化数据进行抽取、转换和加载(ETL)的大规模数据处理平台。对比数据库的应用设计理念和应用目的,数据库可以被理解为是面向事务的设计,而数据仓库是面向主题的设计;数据库存储在线交易数据,数据仓库侧重存储的多为历史数据;针对数据库的设计秉持避免冗余的原则,而数据仓库的设计则是有意引入冗余;数据库是为捕获数据而设计,而数据仓库是为分析数据而设计。长期以来,国外厂商的数据仓库平台和最佳实践在过去几十年很好地支撑了金融、运营商等重点行业的业务发展。随着各行各业数字化转型的深入推进以及监管趋势的变革,传
13、统数据仓库平台迎来了转型升级的重大战略阶段。从传统的 BI(商业智能)到大数据分析,再到当今的 AI(人工智能),传统数据仓库平台一直在演进,并且在 Gartner 年度报告中,某头部传统品牌 T 作为专注于数据分行业趋势与困惑TECHNOLOGY SERVICE STANDARD FOR UPGRADE-DATA WAREHOUSE UPGRADE2析的厂商一直出现在领导者象限,并在单一领域保持十余年的领先地位。因此,我们以某传统数据仓库厂商翘楚 T 公司在国内某金融行业用户的发展为例,该数据仓库厂家的传统数仓在过去数十年为该用户的数据价值挖掘方面发挥了重要贡献,主要基于其以下优势:1)大数
14、据量处理性能较强具体体现在可线性拓展并有效的实现投资保护、数据库管理和维护相对容易、第三方软件产品丰富;2)拥有完整的 ETL 方案且配置灵活3)采集异构数据是,数据以 txt 文件格式,支持一段天数的保留为后续查缺补漏提供时间基础4)Perl 采集数据时,进行输入插入时速度快但是随着业务高速发展积累而来的业务数据已经达到了某传统数据仓库厂商该数仓资源容量上限、数据仓库平台多年的高水位运行带来硬件老化的高风险硬件故障,同时由于该传统数据仓库平台本身商业策略调整导致难以继续升级的风险等多方面因素交织,使得传统数据仓库国产化转型升级迫在眉睫。传统数据仓库平台在升级中的不足具体可归纳为下图 1 中描
15、述的五个维度:图 1 传统数据仓库升级局限性分析0102030405数仓升级硬件老化资源耗尽国产自主可控业务快速发展难以升级升舱-数据仓库升级交付标准白皮书3具体的不足详情体现有以下方面:1)环境搭建复杂需要专用设备,扩展时,停机时间较长2)混合负载控制存在问题3)各系列产品互联困难4)价格较高导致性价比不佳5)ETL 过程和 TD 的工具绑定紧密,对数据库的性能要求和依赖度强6)ETL 环境搭建复杂、非图形化7)自定义函数过程复杂,需用 C 语言编写并导入8)数据库在线性扩展时,数据需要重分布,消耗资源量较大,耗时长。根据我们在部分重点行业用户对于传统数据仓库转型升级方面疑虑和困惑的了解,我
16、们统计归类了如下四类问题:1.数仓升级转型的技术难点或者挑战主要有哪些?2.现有数据仓库关联上下游系统众多,如何在升级过程中快速集成由不同技术体系架构的应用系统?1.数仓升级转型采用怎样的实施路径比较好?2.现有数仓上运行的数量众多的作业和模型,是否能尽可能减少改动平迁到新数仓上正常运行?(一)技术类问题(二)实施类问题TECHNOLOGY SERVICE STANDARD FOR UPGRADE-DATA WAREHOUSE UPGRADE4基于阿里云多年实践,本白皮书将从工程角度对以上数仓问题进行深入探索和讨论,并予以解答和参考。数仓升级转型需要在项目管理、组织层面如何实现配套?1.目前同
17、业在数仓升级转型实践上有哪些成功经验可借鉴?2.应用开发商懂业务应用但是不懂升级后新数仓技术,如何推进?(三)管理类问题(四)发展类问题升舱-数据仓库升级交付标准白皮书5通过多个数仓升级项目实践总结及复盘,要一次性把事情做对,完成一次成功的传统数仓平台升级实施工作难度不亚于飞机在空中更换发动机。总体来看,造成数仓升级实施难度系数较大的原因主要体现在三个层面:技术方案、迁移方法、实施资源。在技术方案上,需要对每个技术关键点都能考虑周全,深入探索每个技术细节并进行充分的论证和测试;在迁移方法上,需要科学完善的实施方法论,充分考虑迁移项目的工程特点和平滑过渡目标,把迁移风险做到可识别、可分析、可预测
18、、可防范;在实施资源上,不仅需要团队对于新技术具有前瞻性认知和把控能力,更需要对原有数仓体系的盘根错节有深入了解,能够在风险发生时从技术、方案、业务等不同层面提出应对方案,及时化解风险。管理学大师德鲁克认为,并不是有了工作才有目标,而是相反,有了目标才能确定每个人的工作。为了成功实施数据仓库升级的既定目标,提升升级交付效率与质量,需要秉持“三个目标、四个原则,五个关键动作”标准,下文将基于此标准并结合实践案例详细阐述,图谱如下图所示:数仓升级成功的关键点TECHNOLOGY SERVICE STANDARD FOR UPGRADE-DATA WAREHOUSE UPGRADE6三目标敏捷响应关
19、联渠道不变加强升级转型认知内外部高效组织保障技术可行性严密论证标准交付平台和工具建设自主运维能力数据体系不变平台兼容性云原生改造降本增效自主开放四原则五关键动作图 2 数据仓库升级实施标准图 3 数仓升级稳定模型2.1 数仓升级的三个目标从我们的调研和实践来看,数据仓库升级不仅仅是一个技术问题,也是一个工程问题,对企业和实施厂商的协调组织、项目管理、技术掌控、交付能力等提出了全方位考验。基于实践,我们总结出“数仓升级稳定模型”(图 3),实现数仓升级需要从三方面进行要素搭建:业务敏捷响应、降本提效、自主开放。业务敏捷响应升级数据仓库目标降本增效自主开放升舱-数据仓库升级交付标准白皮书7首先,数
20、据仓库具备业务敏捷响应支撑能力,该能力可以有效应对当今时代业务发展不确定性和互联网固有特征。相对于传统数据仓库平台升级,则需要考虑具备兼容传统数仓平台的所有业务处理能力,而兼顾所有业务的同时也带来了问题百出和处理问题低效的现象。所以,业务敏捷响应可以有效的节约时间实现数据的迁移、抓取等操作,数仓升级让业务处理更高效。其次,通过数仓升级可以有效的降低数据仓库的整体拥有成本。长期以来由于国外数据仓库厂商在数仓建设上存在某种程度的不可替代性,数据仓库市场一直是个卖方市场。据全球权威 IT 研究与顾问咨询公司 Gartner 公司评测,在数据库领导者象限的某数据仓库厂商,对应项目基本都是千万级起步,这
21、还不涵盖每年固定支出的高昂服务支持费用在内;因此,我们希望通过使用成熟的产品、工具和方法论指导降低数据仓库升级和后期维护整体拥有成本(TCO)。此外,数仓升级可以打破国外厂商的数据仓库平台的技术封闭性问题,实现技术的自主可控。传统国外厂商的数据仓库平台均为软硬一体机的输出模式,且一体机中的网络、存储等对于用户来说是个黑盒;而且随着大数据技术的发展,无法有效与通用大数据技术体系进行有效融合。因此升级传统数据仓库平台需要保持开放性、以自主可控为重要目标进行升级,赋能企业的数字化转型。2.2 数仓升级的四个原则要达成传统数据仓库升级成功的三个目标,我们需要的不仅仅是一套技术交付方案,更需要一套能够指
22、引行动的“原则”。正如雷-达里奥在原则一书中提到:原则犹如指引行动的“灯塔”,它连接着我们的目标与行动。解决不确定性靠敏捷、解决复杂性靠原则,越是复杂的系统越需要一套原则来保证。过去以国外厂商为主导的数据仓库平台很好地解决了企业从零到一的取数、用数问题。经过多年的长期迭代建设和大量投入,在现有数据仓库平台体系内积累了许多符合企业TECHNOLOGY SERVICE STANDARD FOR UPGRADE-DATA WAREHOUSE UPGRADE8自身业务需求的经验和实践,比如在数据架构上采用分层设计思想初步实现了将数据分类处理、建设了大量主题数据模型、建设了统一的数据交换平台,这些都是企
23、业多年经营的心血和结晶,是最重要的数据资产之一,数据仓库平台的升级要尽可能考虑复用企业现有投入,把企业花了大力气积累的数据资产平滑过渡到新的数据仓库平台,避免推倒重来的重复建设开销。如下图所示,我们将高效实现数仓升级所需要的原则总结为“四边形”原则:该模型可细化解读为如下四个方面:1)原关联上下游渠道不受影响:升级数据仓库涉及到对现网上下游多种类型系统的数据集成工作,要确保升级数仓前后业务渠道和系统功能不变、数据交换平台功能不变、批量调度平台功能不变。2)原数仓平台数据体系不变:原数仓平台通过分层设计的数据治理模型不变,比如ODS、数据缓冲层、基础数据层、公共汇总层、数据集市等能在新数仓平台复
24、用。3)原数仓平台兼容性:具有对原有数据仓库平台一定功能上的的兼容能力,确保对原数据仓库平台有一定的使用习惯和功能上的兼容能力。4)采用云原生技术进行优化改造:考虑技术前瞻性、时代必然性,采用云原生组件对传统数仓平台进行优化改造,并且改造后的业务功能不受影响。数据体系不变关联渠道不变云原生改造平台兼容性图 4 数仓升级的四边形原则升舱-数据仓库升级交付标准白皮书9基于以上四个原则,采用云原生组件进行传统数据仓库优化升级可以让企业在云计算时代充分享受云计算的红利。云计算的本质是随着虚拟化技术的突破而带来了用虚拟化技术高效使用来池化底层的硬件资源,最重要的一点是利用好云原生数据仓库的存储和计算资源
25、服务化特性,让用户根据自身的需求灵活选择资源规格、并根据数据量增长需求随时变更资源配置,还能做到对上层应用无感知,达到投入资源收益最大化;此外,分布式并行计算、透明可扩展、高可用、同城容灾等都是传统企业长期以来功能刚需,是云上数据仓库在云上与生俱来的能力,可以让企业实现开箱即用的良好体验;因此,企业在升级传统数仓时选型一套经过大规模验证的、用于支撑新数据仓库平台生产运行的IaaS 和 PaaS 平台,可以让升级工作事半功倍。2.3 升级实施的五大关键点数据仓库平台日常数据处理任务多、对接业务系统广,系统升级切换工作牵一发而动全身,从项目组织管理角度看升级数据仓库是一个大型数据库工程系统的再造。
26、为保证工程质量、工期和风险可控,我们建议企业和实施厂商通过建立相应的实施组织架构,梳理完善的实施工作流程,通过系统工具和完备的方法论指导支撑升级工作的有序进行。实施的五大关键点如下图所示:图 5 数据仓库升级实施五大关键点加强升级转型认知内外部高效组织保障建设自主运维能力标准交付平台和工具技术可行性严密论证TECHNOLOGY SERVICE STANDARD FOR UPGRADE-DATA WAREHOUSE UPGRADE10全球公认的领导与变革领域的权威约翰科特 在变革之心 一书指出:“想要改变人们的行为,仅仅通过帮助人们进行分析来影响他们的思考是不够的。更重要的是,让他们看到事实,从
27、而影响他们的感受!思考和感受都是需要的,而且在一个成功的组织中两者都要具备。但是让人们改变的核心在于触动感受,所以看到-感受-改变 的方式比 分析-思考-改变 的方式更有效。”在我们过往成功落地的数仓升级案例中,我们深刻意识到在实施升级传统数据仓库平台的过程中同样也有必要引入有效运用变革管理的方法,通过一系列举措降低数仓升级过程中的阻力,保障升级规划的落实。1)采取各种措施,确保数仓升级规划完成后,业务和技术部门能够及时深入地学习和了解数仓升级规划内容,并根据规划内容进行下一步工作安排;尽可能将升级转型项目与企业年终绩效机制挂钩。2)贯彻总体升级规划,扩大升级项目的影响力,降低项目风险,获取项
28、目相关方各部门的广泛理解,确保项目顺利进行。3)业务部门要广泛深入的参与到升级实施中,增进对项目过程和成果的认同度和支持度。4)实现知识共享,可以提升应用人员和维护管理人员的新数据仓库平台认识,同时提升对新数仓技术体系的掌控能力。因此,有必要在实施数据仓库升级全周期过程中,强化企业内各部门宣传实践工作来转变观念、提高认识,推动升级实施的顺利进行。升级传统数据仓库平台可以使企业的业务能力、组织能力和技术能力都得到明显提升,但这需要企业能够为升级规划的实施提供充分的资源保障,建议从三个方面进行重点保障:(1)升级转型认知深入人心(2)内外部高效组织保障升舱-数据仓库升级交付标准白皮书11人员:对内
29、要确保企业科技成员对新数仓技术体系的培养,能够在升级实施过程中全程参与;对外要整合各层次的外部资源与企业自有技术人员形成互补,形成“以外带内”的合作局面,充分把新仓技术体系在企业内部推广落地。建议结合企业的现状,引入有满足资质的厂商及外部专家对数仓升级转型综合管理和协调,成立专项组;以下组织结构图 6 可作为参考:对应的组织人员职责说明如下表:项目领导委员会项目总监项目经理业务应用组IT 架构组数据组图 6 数据仓库升级组织架构图组织单元项目领导委员会项目总监职责内容1.监督、指导项目的方向2.确保项目资源3.参加项目进展报告会4.审核批准项目最终成果1.把握总体项目策略方向2.监督项目整个进
30、程3.项目变更进行审核、决策TECHNOLOGY SERVICE STANDARD FOR UPGRADE-DATA WAREHOUSE UPGRADE121)效率:考虑到数仓升级建设的专业性和时效性,建议在实施过程中在企业的科技管理框架下尽可能“特事特办”,增加灵活性,提升遇到内外遇到卡点问题时的协作效率。2)资金:除了对软硬件的投入以外,最重要的是增大对技术专家、服务顾问等引入外脑方面的投入,外部行业专家的意见和建议可以开拓对数仓升级建设的认识思维边界,同时可以紧贴市场,实现成果对市场第一时间的响应;此外,考虑团队成员工作任务分配的不同,以及偶有一人多职、多项目兼顾的情况,投入专业的技术人
31、员和顾问不仅可以增强项目实施和决策的专业性,同时推进准时结项。表 1 组织人员职责说明表组织单元IT 架构组业务应用组数据库组项目经理职责内容1.评估现有甲方系统基础架构与现有系统业务、系统概况2.制定迁云策略与云资源需求3.制定迁移方案和迁移割接方案4.提供上云工具与使用技术以协助迁移方案验证、数据迁移与应用部署5.协助系统割接与上云后的系统优化6.云平台运行问题相应和排查1.制定项目计划并监督执行2.项目总体的协调、沟通、监控、管理3.汇报工作内容与进度清晰且细致的实施路径和技术细节实地验证是决定技术可行性的关键因素,也决定了对数仓升级全流程的掌控能力,成功的项目经验和平台工具能力是最重要
32、的体现。无数个细节和核心技术点体现在从调研选型到业务割接上线全流程中,只有成功的项目足够多,可复制的经验才能体现在实施路径的方法论中。而平台和工具能力又决定了数仓升级流程的效率和质量,体现的是标准化的能力。技术细节的实地验证决定实际升级过程是否能够按照预期推进,每个技术细节的理论和实际偏差都需要验证,偏差过大可能导致整体方案不可行,比如源端和目的端数仓的数据模型,任务兼容度如果(3)技术可行性严密论证升舱-数据仓库升级交付标准白皮书13偏差 20%可能只涉及产品或者应用的少量改造,但是如果偏差 50%,则整体的选型设计方案需推倒重来。与此同时,准确识别核心技术点及其验证方法、前后依赖条件是技术
33、可行性论证的核心,比如兼容度评估、数据及任务迁移、数据校验、业务割接等。完备的实施工具集完备的升级实施工具集是效率大幅提升的重要保障。正如“工欲善其事,必先利其器”,工匠在做工前打磨好工具,操作起来就能得心应手,达到事半功倍的效果。实施工具本身融合了数仓升级设计规范和升级交付产出模板,其产出内容严格按照设计要求,避免人工操作的差异性和不规范性,是交付质量的重要保障手段。同时,工具使用简单、便捷,不需要强依赖经验丰富的专业人员,有效降低了数据仓库升级的实施门槛。常见的交付实施工具有数据仓库调研评估工具、海量数据迁移同步工具、数据模型迁移工具、数仓作业任务迁移工具、数据校验稽核工具、项目实施流程管
34、控工具等等。持续的知识库建设作为工程的一个重要组成部分,数据仓库过程升级中存在项目管理、方案、技术问题、最佳实践、赋能培训等方面的材料沉淀,有必要将实施过程积累下来的技术、经验记录等记录在标准文件中。以免因技术人员的流动而使方案或技术流失,从而方便操作人员经过短期培训,快速掌握云上数据仓库的操作技术;同时,在升级实施的各个阶段,需要有可视化工作台将完成的阶段性任务进行统一组织管理。数仓升级是客户、ISV、数仓产品及服务提供商通力合作的过程,数仓建设完成后客户的自主运维能力是客户关注的核心问题之一。首先自主运维能力不是一蹴而就的,建议设置短中长期规划并配备相应的组织人员支撑规划。短期以产品及服务
35、提供商为主(4)标准的交付平台和工具(5)自主运维能力建设TECHNOLOGY SERVICE STANDARD FOR UPGRADE-DATA WAREHOUSE UPGRADE14客户为辅,中期以客户为主产品及服务提供商为辅,长期目标是客户自主运维、产品及服务提供商承担应急处理的方式;其次,自主运维能力需要理论加实践的结合,如果只是进行一些理论或者技术宣讲,最后大概率只会沦为一些归档文件,自主运维能力必须建立在运维实践的基础上,反复沉淀优化运维和应急资产,迭代组织结构和效率;最后,从数仓升级建设开始,客户人员端到端深度参与也非常重要,这不仅是了解从选型、设计、迁移、优化至运维的契机,也是
36、一个业务和技术双向赋能的过程,每个技术细节的可选方案、权衡取舍都是个人运维能力和团队自主运维能力提升的一小步。升舱-数据仓库升级交付标准白皮书15在具体如何落地数据仓库平台升级的问题上,我们本着求真务实的态度,坚持从实践中来到实践中去。毛泽东曾说“只有人们的社会实践,才是人们对于外界认识的真理性的标准。真理的标准只能是社会的实践。”通过多个数仓升级项目实践总结及复盘,需要通过数据仓库平台升级动作的标准化,把交付过程中的各个要素和环节有机组织起来,使数据仓库平台的升级工程规范化、科学化、程序化,提升数据仓库平台升级交付效率与质量,达成前述升级数仓的三个既定目标。基于项目实践,如图 7 所示,将数
37、仓升级分为三个主流阶段:升级挑战阶段,明确困难点,后期一一进行突破;标准升级流程阶段,遵守四个标准,从而促进标准化的成熟和项目落地;升级标准化成熟度阶段,该阶段同时也反哺第二阶段。整体来看,数据仓库平台升级过程的主要挑战可以归纳有如下方面:实施专业度高实施标准与实施路径促进反哺升级挑战实施专业度高交付验收周期长交付生态协同难交付过程管控复杂标准升级流程交付工具自动化升级方案规范化交付内容模板化交付流程标准化升级标准化成熟度关键动作完成度成熟方案复用度交付工具覆盖度业务价值清晰度图 7 数据仓库升级的三个主流阶段TECHNOLOGY SERVICE STANDARD FOR UPGRADE-DA
38、TA WAREHOUSE UPGRADE16数据仓库平台升级工作一般都要涉及咨询、数据、技术、运营等,交付技术覆盖范围广、资源需求大,对于交付供应商能力需多方面的考验;而交付供应商常常因行业经验、专业人员、方案成熟度等方面的不足,导致升级实施存在诸多质量问题和不确定性。交付验收周期长数据仓库平台升级都会涉及数据迁移、模型迁移、调度任务迁移以及上下游关联系统协同等,其交付周期一般以数月为最小单位,期间人员流动风险、需求变动风险等都对项目工期带来挑战,导致交付的业务价值及质量等级很难做到在线化、可视化评估。交付生态协同难数据仓库平台升级工程庞大、环节众多,没有一家公司能够全方面覆盖,往往是多家实施
39、供应商集成工作模式整合彼此优势资源,但是实施供应商之间在能力匹配上有很大不确定性。造成此种不确定性的原因往往集中在实施伙伴间能力成长差异性、伙伴内部对员工的不同组织架构带来的不稳定性以及员工本人对职业路径规划所产生的波动性、伙伴对行业领域知识的缺乏等,这些知识和能力上的参差不齐使得数据仓库升级实施生态协同难。交付过程管控复杂在实施交付过程中,从需求调研、方案设计、迁移实施到新/旧双系统并行试跑,基本都是在线下由不同角色、甚至不同实施供应商完成的,缺乏项目交付全流程、全生命周期的数字化工作台承载,很难实现对项目全局掌控,各个环节都容易出现不同类型的问题与挑战。数据仓库平台升级实施面临的这些常见挑
40、战,是高标准、高质量、高效率的去实施数仓升级工程的拦路虎。结合软件工程理论和数据仓库平台升级实施经验,构建标准升级流程和质量评估标准可以有效降低这些挑战带来的风险,即通过交付标准方案、交付标准流程、交付标准工具及数字化工作台,提升交付效率与实施质量,降低项目实施门槛与过程管控复杂度,为“多、快、好、省”数仓升级交付奠定基础。升舱-数据仓库升级交付标准白皮书173.1 实施标准路径数仓的升级实施流程按照“统一规划,阶段实施”的原则进行建设。从项目生命周期角度,我们将数仓升级实施工作分为两个阶段:轻咨询期和升级建设期。每个不同时期都有服务交付进行兜底管控,同时每一个阶段的产出又是下一个阶段的输入,
41、从而形成一个体系化的升级数据仓库平台的顶层工作任务和路径规划。详情见下图 8:为了保证升级工程质量、工期和风险可控,最大限度规避和降低升级过程的诸多挑战,升级过程要求以“交付工具自动化、升级方案规范化、交付内容模板化、交付流程标准化”为宗旨进行实施。调研与设计测试迁移生产迁移生产迁移与核验业务调研典型场景验证数据比对项目总结与验收变更同步方案设计迁移测试与调优业务割接运维保障系统并行项目验收服务交付服务管理质量管理升级建设期轻咨询期图 8 数据仓库升级路径规划轻咨询期是数仓升级实现规范化的重要阶段,为确保后续升级工作更具有可落地性、可实施性,该阶段主要工作内容如下:1)专家咨询与方案输出:需要
42、企业借助一批有传统数据仓库平台升级落地经验的外部(1)轻咨询期TECHNOLOGY SERVICE STANDARD FOR UPGRADE-DATA WAREHOUSE UPGRADE18图 9 数据仓库升级实施规划流程图专家,结合企业自身业务特点规划升级数据仓库顶层设计,并进行严密的技术可行性论证,产出提供数据仓库迁移工作所需的现状调研与需求分析、方案设计、方案可行性验证、交付实施规划、升级所需软硬件资源规划和容量设计、高可用与容灾设计等;2)项目组织实施机制确定:结合同业数仓升级实施经验,组织构建升级交付阵型,明确组织分工和协调机制;3)前期人员能力培训:进行升级实施前的产品、方案的赋能
43、培训工作,确保企业业务和技术部门以及实施供应商能够及时深入地学习和了解数仓升级规划相关产品、技术和工具;4)环境准备:数据仓库平台升级所需环境资源,比如容量规划等;5)风险预判与风险对策:升级实施过程潜在风险点的梳理及应对策略。通常经过轻咨询阶段后,可以输出数据仓库升级实施整体规划,后续的升级建设基于该规划整体推进将实现从宏观到微观的全面落地,下图为数据仓库升级实施规划流程示意图。一、现状调研与需求分析阶段二、方案设计阶段咨询目标差距轻咨询目标明晰数据库系统现状分析咨询背景明晰业务场景及痛点访谈数据体系运维体系数据仓库现状调研与需求分析报告概要设计报告升级仓库选型方向及原则三、方案验证阶段制定
44、验证方案及目标验证环境准备数仓升级PoC测试PoC测试结果复盘PoC测试报告总体方案设计咨询目标对齐数据库关联方明晰数据架构数据架构应用架构仓库调研、采集、评估升级方案设计系统架构数据架构迁移实施方案系统优化高可用设计容灾设计方案可行性验证分析报告四、实施路径及策略交付实施策略及计划交付实施保障建议五阶十步标准化交付知识转移规划实施路径及策略报告升舱-数据仓库升级交付标准白皮书19升级实施建设期,在“不改架构,不动流程,尽力兼容,云化升级”的总体原则下,围绕着“不停机迁移与双核心数仓平台并行”目标,我们进一步将升级实施拆解分阶段总结归纳为“五阶十步”,如下图示:在具体实施建设期间,高标准、高质
45、量的实施借助标准交付平台和工具的有效利用,通过将交付流程流水线化、工具自动化降低实施厂商人员素质差异带来的交付质量降低风险。实施期间“五阶十步”主要工作内容具体如下,对应产品、工具和平台在后文案例进行介绍。阶段一:调研与设计该阶段需要实施厂商对原系统上下游做详实调研,需现有数据仓库平台和业务系统进行充分的信息收集,最后迭代输出调研分析报告,并与企业业务方做深入讨论与修正。调研内容覆盖如下方面:(2)升级建设期图 10“五阶十步”实施图生产迁移与核验-数据源迁移-用户/权限同步-模型同步-作业同步-数据迁移-业务验证-性能验证/优化变更同步-需求变更-模型变更-作业变更-变更验证数据比对-比对策
46、略定义-差异分析-差异汇总分类-差异修复/兼容业务割接-下游系统适配-割接演练-业务割接-割接保障项目总结与验收-遗留问题解决-项目复盘-项目验收运维保障-交付转维-问题反馈机制新增需求规划-需求分析讨论-原型设计-排期开发-测试验证1.调研与设计2.测试迁移3.生产迁移4.系统并行5.项目验收业务调研方案设计典型场景验证迁移测试与调优生产迁移与核验变更同步数据比对业务割接项目总结与验收运维保障典型场景验证-用户/权限迁移-模型迁移-作业迁移-数据迁移-业务验证-典型场景总结测试迁移与验证-复制典型场景步骤-业务/模型调优-外围系统适配-需求变更适配-迁移方案优化业务调研-原系统/网络架构-原
47、系统资源盘点-原数仓交互流程-原数仓库表统计 方案设计-系统/网络架构-规划设计-迁移方案-并行方案-实施计划-验收标准TECHNOLOGY SERVICE STANDARD FOR UPGRADE-DATA WAREHOUSE UPGRADE20(1)原数仓系统架构(2)原数仓数据交互流程(3)原系统资源盘点(4)原数仓库表统计由于数据仓库数据体量一般较大、数据特征复杂,在调研初期需要合理运用技术手段,采集分析现有数据仓库平台数据对象特征、采集分析业务 SQL、关键特性等,并设计合理而科学的迁移实施方案。阶段二:测试迁移该阶段主要围绕典型场景验证展开,对现有数据仓库平台涉及的 ETL 作业任
48、务、表/视图结构、模型、数据、用户权限等进行迁移的论证工作,通过典型场景验证期望暴露更多技术性问题(如 SQL 兼容性、SQL 复杂度、作业复杂度等),用于正式实施阶段更为准确评估迁移工作量;测试迁移阶段涵盖的主要验证范围如下:(1)数据源迁移(2)数仓模型迁移(3)作业调度迁移(4)数据迁移(5)新老数仓系统数据比对(6)下游系统对接阶段三:生产迁移通过测试迁移阶段对潜在风险点、卡点性问题逐一排除后,生产迁移过程压力就会随之降低很多,该阶段依托构建的知识库记录详细的操作流程进行评审和实施,确保正升舱-数据仓库升级交付标准白皮书21式迁移中操作质量和效率;生产迁移阶段主要包括数据迁移、模型迁移
甲子光年:中国AI产业地图研究[55页].pdf
工业行业新能车前沿技术之二:滑板底盘-220607(26页).pdf
澳华内镜-国产软镜设备龙头企业IPO后加速发展-220607(34页).pdf
常熟银行-深度报告:小微战略下沉转型初具成效-220607(32页).pdf
国防军工行业翼龙无人机:长航时无人机龙头-220606(17页).pdf
国电电力-盈利良好新能源规划上调加速转型-220607(30页).pdf
和林微纳-MEMS材料形成国际竞争力半导体探针国产化先锋-220607(26页).pdf
华海清科-CMP设备稀缺龙头在手订单快速增长-220606(21页).pdf
家电行业消费升级专题分析报告:高端品牌力探索系列(1)超高端品牌Miele竞争力如何打造-220606(21页).pdf
科瑞技术-元宇宙+新能源重塑非标自动化大厂崛起-220607(26页).pdf
荣昌生物-自免+肿瘤双新星打造创新医药护城河-220607(67页).pdf
数通光模块行业专题:数通需求渐强催化接踵而至-220608(48页).pdf
Zingfront:2018年全球移动广告年终报告(游戏篇)(19页).pdf
TalkingData:2018年11月移动游戏Benchmark(16页).pdf
TalkingData:2018年9月移动游戏Benchmark(17页).pdf
Sojern:2018年第三季度全球旅行洞察报告(英文版)(30页).pdf
2018年90后时尚生活形态研究(23页).pdf
Trustdata:2018年移动互联网行业分析报告(88页).pdf
2018Q3中国网络婚恋行业季度监测报告(23页).pdf
2018年融屏时代下的媒体矩阵价值研究报告(62页).pdf
世界知识产权组织(WIPO):2018全球创新指数报告(中文简版)(121页).pdf
WIFIPIX:2018年旅游迁徙报告(20页).pdf
2018年Q3中国互动娱乐季度数据发布研究报告(25页).pdf
TripActions:2018年商旅状态报告(英文版)(20页).pdf
阿里云:数据中台交付标准化白皮书(40页).pdf
谷歌云:数据仓库的未来白皮书(18页).pdf
中国通讯标准化协会:数据治理标准化白皮书(32页).pdf
智慧城市标准工作组:2022城市数字孪生标准化白皮书(54页).pdf
中国电子技术标准化研究院:2019超高清视频标准化白皮书(54页).pdf
阿里巴巴:2019年奇门标准化协议白皮书(140页).pdf
国家智慧城市标准化总体组:智慧城市标准化白皮书(2022版)(73页).pdf
浙江大学:数据产品交易标准化白皮书(2022年)(99页).pdf
2018边缘云计算技术及标准化白皮书(24页).pdf
中国电子技术标准化研究院:大数据标准化白皮书 (2020版)(119页).pdf
蜜雪冰城招股说明书-连锁茶饮第一股(724页).pdf
线上健身第一股-keep招股说明书(463页).pdf
麦肯锡:2023中国消费者报告:韧性时代(33页).pdf
罗振宇2023“时间的朋友”跨年演讲完整PDF.pdf
QuestMobile:2022新中产人群洞察报告(37页).pdf
QuestMobile:2022年中国短视频直播电商发展洞察报告(30页).pdf
小红书:2023年度生活趋势报告(34页).pdf
町芒:2022现制茶饮行业研究报告(47页).pdf
QuestMobile:2021新中产人群洞察报告(30页).pdf
锐仕方达&薪智:2022年薪酬白皮书(105页).pdf