当前位置:首页 > 报告详情

数据湖 iceberg 在小米的应用场景.pdf

上传人: 2*** 编号:122854 2023-04-03 28页 2.90MB

报告标签

数据湖iceberg应用场景
word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
李培殿,小米数据湖研发负责人,在2023年的演讲中介绍了Iceberg的核心特性和在小米的应用场景。Iceberg是一个开放标准,支持SQL行为,具有事务性、全Schema Evolution等特性,允许字段类型提升、增加或删除列、重命名列和调整列顺序等操作。在小米,Iceberg用于日志集成入湖和近实时数仓建设,解决了数据重复、分区漂移等问题,并提高了数据正确性和计算资源效率。通过隐式分区,Iceberg简化了分区管理,优化了数据扫描量和计算资源消耗。同时,李培殿也提到了Iceberg在小米的优化和挑战,如分区完备性校验、隐式分区带来的不确定性、Spark timestamp问题以及changelog实时集成入湖等。最后,他概述了Hive升级Iceberg的不同方案和Iceberg的应用现状,以及未来的规划,包括物化视图ChangelogView和数据上云。
"Iceberg 是什么?" "Iceberg 在小米的应用场景和未来规划是什么?" "如何解决隐式分区在离线场景的问题?"
客服
商务合作
小程序
服务号
折叠