李培殿-小米数据湖架构演进:Iceberg、Paimon与 AI 场景下的实践.pdf

编号:627127 PDF 34页 2.20MB 下载积分:VIP专享
下载报告请您先登录!

李培殿-小米数据湖架构演进:Iceberg、Paimon与 AI 场景下的实践.pdf

1、李培殿1.小米数据湖架构及上云实践2.从离线湖仓到实时湖仓3.数据湖在AI场景实践4.未来规划目录 手机研产供 新零售 IOT设备信息化 互联网广告 互联网应用 信息流推荐互联网 基座大模型 小爱同学AI 智能座舱 自动驾驶汽车FlinkSparkTrinoDorisRayGravitinoHiveIcebergPaimonFilesetJuiceFSHDFS计算引擎元数据数据湖存储层数据工场平台表数量7W+存储量100PB+集团数仓标准 云上存储成本相比IDC成本更低 运维成本更低成本 云上对象存储无限容量 IDC机房扩容周期长容量 HDFS 慢节点问题严重 HDFS 对小文件不友好性能对象

2、存储JuiceFS(自建)QPS 限制同一个前缀存在 QPS 限制前缀散列存储,避免 QPS 限制读性能一般预读机制、分布式缓存提升读性能调用费用在可接受范围内预读导致调用费用上涨,但可通过缓存缓解Bucket 带宽大吞吐作业易打满带宽分布式缓存可缓解带宽问题租户隔离(审计与计费)平台侧一般使用单个桶,难以做租户隔离自建 JuiceFS 集群接入内部 IAM 体系做用户隔离云上对象存储自建HDFS自建HDFS存量分区新增分区Full Compaction 异步转储上云云上对象存储自建HDFS存量分区新增分区温数据上云热数据上云IcebergJuiceFS云上对象存储热数据上云JuiceFS C

3、ache认证鉴权个人凭证Ranger 鉴权服务表鉴权Secret ManagementGravitino请求凭证ak/skak/skid(PK)data1a1b2cfile_pathpositiondatafile.parquet1id2datafile.parquetposition delete fileequality delete fileid(PK)data1adatafile.parquet并发更新场景下难以保证主键唯一Overwrite 语义无法保证主键唯一upsert 语义下生成太多 equality delete 记录,导致查询缓慢mergeid(PK)data1a1b2cf

4、ile_pathpositiondatafile.parquet1id2datafile.parquetposition delete fileequality delete filerowkindid data-D2nullchanglog 不完整:如对于-D 记录只有主键字段,当根据非主键字段聚合操作时会导致数据错误只有-D,+I 操作,无法正确的反映出-U,+U无效的 equality delete:增多时导致下发过多的-D 操作导致聚合错误数据乱序:读取 data file 时分片策略导致数据乱序rowkindid data+I1achangelog把复杂留给自己,把简单留给用户vs复

5、杂的聚合逻辑及调优由用户完成聚合逻辑及调优由Paimon来完成天级链路延迟离线计算,失败后重试代价高每次拼接 shuffle 数据量翻倍激活数据延迟时需回溯理历史分区广告请求特征广告计费数据中间数据广告转化数据样本数据100GB100GB200GB100GB300GB分钟级链路延迟增量计算,重试代价小无需 Join 拼接数据,由 Paimon 聚合转化数据延迟时也可自动关联广告请求特征广告计费数据广告转化数据样本数据100GB100GB300GBunion100GB 非表格数据的管理和治理 大模型训练数据预处理 AI场景数据挖掘非表格数据的管理和治理 缺乏资产定义:非表格数据一般以文件方式存储

6、,(文件归属、文件描述等)生命周期治理困难:非表格数据目录不规范,难以做生命周期有效治理 审计困难:算法团队共享账号访问目录,导致审计困难 共享困难:目录方式难以进行权限管控和数据分享资产标识:fileset_catalog.raw_mon_crawl虚拟访问目录:gvfs:/fileset/fileset_catalog/raw_data/common_crawl实际存储目录:jfs:/volume/raw_data/common_crawlFileset Cataloggvfs:/fileset/fileset_catalog/xxx Flink/S

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(李培殿-小米数据湖架构演进:Iceberg、Paimon与 AI 场景下的实践.pdf)为本站 (山海) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
客服
商务合作
小程序
服务号
折叠