数据开发平台架构实践 - 数据开发的生产环境隔离.pdf

编号:122874 PDF 34页 4.97MB 下载积分:VIP专享
下载报告请您先登录!

数据开发平台架构实践 - 数据开发的生产环境隔离.pdf

1、数据开发的生产环境隔离演讲人:崔博雯小米数据工场研发负责人2023 背景思考&选型落地路径业务实践背景小米数据平台发展历程多平台统一数据平台开发在线化建设201920212022各平台覆盖度各异账号与权限体系不同缺乏统一的业务视角统一的元数据/权限/调度支持多种引擎/多数据源覆盖离线/实时开发场景开发生产环境隔离标准化开发流程WebIDE建设小米数据平台发展历程201920212022统一数据平台:数据工场Alpha数据开发两大挑战:安全 与 质量个人信息保护法2022数据安全的要求下,数据隔离的需求愈发强烈国内GDPR数据安全法海外影响区域隔离角色隔离数据脱敏禁止跨地区访问数据国内开发&海外

2、运维开发人员只能使用脱敏后的数据政策规范数据开发两大挑战:安全 与 质量数据反哺线上业务,数据质量异常重要起夜率居高不下集团统一数仓支撑研产供/销服/IoT/手机等业务线复杂度高,交付压力大缺少生产与开发环境的隔离测试流程缺失代码测试不充分CodeReview环节缺失测试流程不规范测试流程污染线上数据测试代码被误发布至线上缺乏生产环境隔离的产品方案隔离需求各异满足个性化需求满足强质量需求同一套方案,解决多场景需求没有统一方案时,业务方有各自的局部方案目标思考&选型生产开发环境的3大目标数据隔离规范流程提升效率 聚焦离线数据开发场景 用户无感的隔离方案 设计开发生产流程,提供产品化支撑 覆盖全集

3、团数据业务场景 完善在线化开发调试流程 提供交互式开发体验,提升开发效率数据隔离方案对比完备的测试环境通过采样、脱敏、仿真等方式生成数据常用的两种隔离方案物理隔离重点关注“写”数据隔离允许读线上数据逻辑隔离数据隔离方案 物理隔离数据源种类多,多数据源多集群难以维护数据源替换难度高,上线负担大代码可复用性不足若仅需部分表局部测试,上游表梳理、测试数据同步等工作复杂权限管控、测试数据生命周期管控流程繁琐业务维护意愿不强,难以落地物理隔离方案屏蔽了所有数据的访问对于低资产、低安全等级数据来说,没有必要业务灵活性物理隔离方案灵活性不足代码可复用性测试数据可维护性业界的逻辑隔离方案通过对上下文的替换即可

4、完成一套代码开发生产环境数据隔离,不需要任何产品化支撑通过指定库表来进行隔离以最常见的SQL脚本为例:通常包含多个读表、一个写表库表可通过上下文决定数据逻辑隔离方案-挑战多存储引擎下的联邦查询SparkFlinkPresto统一元数据服务(MetaCat)HiveIcebergDoris背景 多套存储引擎 catalog.db.table 联邦查询能力挑战 多个业务库、存储引擎 SQL使用完整三级结构 无法通过上下文切换数据逻辑隔离方案例如:将Hive数据写入Iceberg,需要完整三级结构我们在SQL中引入命名环境变量$phone会在生产环境下解析为phone,开发环境下解析为phone_d

5、ev环境变量方案数据隔离开发环境产品化支撑由于采用了数据逻辑隔离方案,所有操作都在生产集群上进行。用户如何感知到哪些环节属于开发环境,哪些环节属于生产环境?开发上线流程的设计创建测试表数据开发测试验证CodeReview上线审批发布上线开发者审核人自动化生产开发环境隔离下的开发效率挑战协同编辑、上下游影响、上下线影响逻辑审核、正确性验证测试表构建、测试数据生成开发效率协作效率review效率生产开发环境隔离下的开发效率动作下游影响分析、工作流草稿锁定版本对比、智能检查、冒烟测试、上线阻断测试表生成、血缘提取、数据抽样&脱敏开发效率协作效率Review效率落地路径功能落地路径-MVP为了保证产品

6、开发过程中每个阶段都能够及时获得用户反馈并取得阶段性成果,我们采用了MVP(最小化可行产品)的研发方式。具体分为以下五期来进行:1.版本比对:将多种作业类型以及工作流的版本比对统一抽象为代码比对、表单比对2.最小化引入开发流程:通过工作流最新版本实现草稿版本,启用版本实现上线版本3.数据隔离:实现命名环境变量在不同环境下的解析4.上线审核:实现上线审批流程,并在审批环节进行Code Review5.智能检查:SQL静态扫描、血缘依赖检查、自测流程检查在引入新的开发流程时,应该同时考虑相应的工具和技术来提高工作效率,避免数据研发对新流程的抵触情绪。产品推广

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(数据开发平台架构实践 - 数据开发的生产环境隔离.pdf)为本站 (2200) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
客服
商务合作
小程序
服务号
折叠