当前位置:首页 > 报告详情

从迁移最大的免疫分析平台中吸取的经验教训.pdf

上传人: 张** 编号:167541 2024-06-15 32页 351.81KB

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文主要介绍了从旧系统迁移到Databricks过程中遇到的问题和解决方案。主要内容包括: 1. 了解数据:发现上游系统不断更新大部分表,导致更新90%的分区资源消耗巨大。 2. 理解数据结构:由于对改变的分区数量理解错误,使用SCD Type 2导致表大小随时间显著增加。 3. 集群策略:组织缺乏管理Databricks的经验,需要调整集群策略以满足需求。 4. 解耦工作流程:将银层和金层分开处理,使用异步方法,使资源得到更有效的利用。 5. 解决方案:整体编排由Azure Data Factory驱动,使用Oracle MVLogs进行变更数据捕获,DLT摄取变更数据,工作流处理主人员索引并创建金层。
免疫信息系统的迁移挑战是什么? 数据结构对数据迁移有何影响? 如何有效管理大规模数据迁移?
客服
商务合作
小程序
服务号
折叠