《李培殿-小米数据湖架构演进:Iceberg、Paimon与 AI 场景下的实践.pdf》由会员分享,可在线阅读,更多相关《李培殿-小米数据湖架构演进:Iceberg、Paimon与 AI 场景下的实践.pdf(34页珍藏版)》请在三个皮匠报告上搜索。
1、李培殿1.小米数据湖架构及上云实践2.从离线湖仓到实时湖仓3.数据湖在AI场景实践4.未来规划目录 手机研产供 新零售 IOT设备信息化 互联网广告 互联网应用 信息流推荐互联网 基座大模型 小爱同学AI 智能座舱 自动驾驶汽车FlinkSparkTrinoDorisRayGravitinoHiveIcebergPaimonFilesetJuiceFSHDFS计算引擎元数据数据湖存储层数据工场平台表数量7W+存储量100PB+集团数仓标准 云上存储成本相比IDC成本更低 运维成本更低成本 云上对象存储无限容量 IDC机房扩容周期长容量 HDFS 慢节点问题严重 HDFS 对小文件不友好性能对象
2、存储JuiceFS(自建)QPS 限制同一个前缀存在 QPS 限制前缀散列存储,避免 QPS 限制读性能一般预读机制、分布式缓存提升读性能调用费用在可接受范围内预读导致调用费用上涨,但可通过缓存缓解Bucket 带宽大吞吐作业易打满带宽分布式缓存可缓解带宽问题租户隔离(审计与计费)平台侧一般使用单个桶,难以做租户隔离自建 JuiceFS 集群接入内部 IAM 体系做用户隔离云上对象存储自建HDFS自建HDFS存量分区新增分区Full Compaction 异步转储上云云上对象存储自建HDFS存量分区新增分区温数据上云热数据上云IcebergJuiceFS云上对象存储热数据上云JuiceFS C
3、ache认证鉴权个人凭证Ranger 鉴权服务表鉴权Secret ManagementGravitino请求凭证ak/skak/skid(PK)data1a1b2cfile_pathpositiondatafile.parquet1id2datafile.parquetposition delete fileequality delete fileid(PK)data1adatafile.parquet并发更新场景下难以保证主键唯一Overwrite 语义无法保证主键唯一upsert 语义下生成太多 equality delete 记录,导致查询缓慢mergeid(PK)data1a1b2cf
4、ile_pathpositiondatafile.parquet1id2datafile.parquetposition delete fileequality delete filerowkindid data-D2nullchanglog 不完整:如对于-D 记录只有主键字段,当根据非主键字段聚合操作时会导致数据错误只有-D,+I 操作,无法正确的反映出-U,+U无效的 equality delete:增多时导致下发过多的-D 操作导致聚合错误数据乱序:读取 data file 时分片策略导致数据乱序rowkindid data+I1achangelog把复杂留给自己,把简单留给用户vs复
5、杂的聚合逻辑及调优由用户完成聚合逻辑及调优由Paimon来完成天级链路延迟离线计算,失败后重试代价高每次拼接 shuffle 数据量翻倍激活数据延迟时需回溯理历史分区广告请求特征广告计费数据中间数据广告转化数据样本数据100GB100GB200GB100GB300GB分钟级链路延迟增量计算,重试代价小无需 Join 拼接数据,由 Paimon 聚合转化数据延迟时也可自动关联广告请求特征广告计费数据广告转化数据样本数据100GB100GB300GBunion100GB 非表格数据的管理和治理 大模型训练数据预处理 AI场景数据挖掘非表格数据的管理和治理 缺乏资产定义:非表格数据一般以文件方式存储
6、,(文件归属、文件描述等)生命周期治理困难:非表格数据目录不规范,难以做生命周期有效治理 审计困难:算法团队共享账号访问目录,导致审计困难 共享困难:目录方式难以进行权限管控和数据分享资产标识:fileset_catalog.raw_mon_crawl虚拟访问目录:gvfs:/fileset/fileset_catalog/raw_data/common_crawl实际存储目录:jfs:/volume/raw_data/common_crawlFileset Cataloggvfs:/fileset/fileset_catalog/xxx Flink/S