肖杰宝-数据多云论坛终.pdf

编号:168913 PDF 43页 3.34MB 下载积分:VIP专享
下载报告请您先登录!

肖杰宝-数据多云论坛终.pdf

1、DataFunCon#2024小米基于 Data/AI 一体化的湖仓多云实践演讲人:肖杰宝-小米-软件研发工程师Contents目录主题一:湖仓多云架构探索实践主题二:湖仓表格数据多云实践主题四:未来规划主题三:Data/AI 非表格数据多云一体化实践01 湖仓多云架构探索实践 Hive 为主 存储主要为 HDFS 数据孤岛 存算耦合湖仓体系发展路径早期 引入 Iceberg 探索构建数据湖平台 探索湖仓元数据统一管理 探索存算分离+多云架构近几年 Iceberg 多云存储 构建数据湖平台 湖仓元数据统一管理 存算分离+多云架构 探索 Data/AI 非表格数据管理 引入 Paimon当前数据

2、湖平台架构 元数据 统一管理 对接多引擎、数据源和数据平台 数据湖 表格数据:Hive、Iceberg、Paimon 非表格数据:Fileset 计算多云调度 Yarn Federation 混合云架构 多云存储 Iceberg on 多云存储 HDFS on 多云存储 LavaFS统一湖仓元数据实践 统一元数据 统一的元数据湖,解决数据孤岛 支持多引擎、多数据源 多引擎访问获取元数据 支持多种表格数据源 实时性和一致性 实时获取底层元数据 动态注册 支持动态修改数据目录,降低维护成本存/算多云实践 存储改造 HDFS on 对象存储,主要解决冷数据对象存储化 计算与云上存储通过专线进行数据传

3、输 推进了 60%数据上云,存储成本大幅下降存/算多云实践 计算改造 基于 Yarn Federation 的混合云架构 对象存储+可变计算资源 原先存储成本 支持文件完整性校验:即文件读写过程中支持 Checksum 的校验 案例:曾经出现过将文件搬迁到云上后,没有进行 Checksum 的校验,发生丢文件数据的情况云存储选型要求 如何评价性能和调用成本 1、基于 TPCDS 数据集测试 2、”写入“和”读取“两方面 写入性能和调用成本:同一份 5 TB 的 TPCDS 数据集写入云上 Iceberg 表 计算总体写入时间和总体 API 调用次数 读取性能和调用成本:围绕 4 类 TPCDS

4、 Query 测试:重计算轻 IO、轻计算重 IO、重计算重 IO、Scan 全表 记录每组 Query 耗时和总体 API 调用次数数据上云方案 两套方案 热数据直接上云 针对性能较好,调用成本低的云存储 Iceberg 表直接切换 Table Location 到云上 历史数据通过异步搬迁上云或等待 TTL(生命周期)过期清理 温数据上云 针对性能较差,调用成本较高的云存储 热数据仍然直接写入 IDC 的 HDFS 集群 在冷、热数据之间,根据 TTV(最近访问情况)进一步压缩出温数据,将温数据异步搬迁上云数据上云方案 两套方案数据上云方案 热数据直接上云 产品层:支持 Iceberg 表

5、新建或存量切换到云上存储数据上云方案 热数据直接上云 直接切换 Table Location 支持根据容量选择最佳Bucket Location 元数据增加 History Location List 通过转储服务完成历史分区异步转储上云 通过清理服务完成历史冗余数据的清理数据上云方案 温数据上云 增加表参数,开启温数据上云 通过转储服务,根据 TTV 计算温数据分区,按分区异步搬迁上云 通过清理服务完成冗余数据清理数据上云方案 智能优化服务 支持:Compaction Expire Snapshots Orphan Clean Clustering Indexing Rewrite Mani

6、fests Data Transfer 消息事件和定时调度,实现表级别、分区级别异步优化任务收益存储降本协助业务实现大幅度降本60+%多集群落地在多个集群落地上云方案4+数据无感上云用户无感地表格数据上云5+PB03 Data/AI 非表格数据多云一体化实践非表格数据的痛点非表格数据散布在 HDFS、Juice FS 和云存储,无法得到有效治理,存储成本高昂存储成本高不同业务共享Kerberos 账号,缺乏细粒度权限控制和审计安全隐私风险缺少血缘和业务属性访问方式不统一,难追溯资产管理难AI 大模型业务井喷式增长大量训练数据、建模数据尚未得到有效管理AI

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(肖杰宝-数据多云论坛终.pdf)为本站 (张5G) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
客服
商务合作
小程序
服务号
折叠