Delta Lake在BI+AI产品中的实践-final.pdf

编号:121845 PDF 27页 4.10MB 下载积分:VIP专享
下载报告请您先登录!

Delta Lake在BI+AI产品中的实践-final.pdf

1、Delta Lake在BI+AI产品中的实践演讲人:李迪砺观远数据研发主管2023 观远数据分析产品简介Delta Lake的应用实践总结和展望观远数据分析产品简介公司介绍成立于2016年,总部位于杭州 愿景:让业务用起来 让决策更智能 客户:联合利华、LVMH、招商银行、安踏、华润集团、扬子江药业、元气森林、小红书、蜜雪冰城等500+行业领先客户,分布在零售、消费、金融、高科技、制造、互联网等行业。数据分析产品简介 数据接入 自助取数 智能ETL 可视化分析 数据大屏 数据门户 复杂报表 移动轻应用 表单填报 增强分析 数据解释 数据应用客户案例某头部银行:4万+月活跃用户 查询性能9分位保

2、持在35秒 单日50万+spark任务 1万8千核的超大集群Delta Lake的应用实践Delta Lake的应用实践 数据湖架构介绍 Delta Lake的重要特性,以及如何应用 性能优化数据湖架构数据分析平台架构Delta Lake的重要特性 ACID 全量/增量更新 Schema管理 多引擎支持(Spark,机器学习,Java等)数据版本支持 分区 存算分离,支持多种存储方案(HDFS,S3,NAS等)流/批一体Delta Lake表结构 _delta_log元数据目录 json:单次commit日志 checkpoint.parquet:合并的commit日志 分区/数据文件 层次组

3、织ACID 原子性 Delta log控制提交原子性 一致性 乐观并发控制 3阶段机制(读取 写入 验证和提交)隔离级别 默认write serializable 持久性 底层存储服务保证(HDFS,S3,NAS等)并发控制 业务上如何减少并发错误的影响全量/增量更新 全量覆盖(overwrite)全量覆盖,初次加载或者重建表 增量更新(merge)基于时间或者其他属性的增量更新 追加新数据(append)已有数据不会发生变化数据接入方式 JDBC方式 对接方便,较为通用Hive表的优化 客户案例 Jdbc方式将Hive表转化为Delta Lake比较慢,如何优化?Hive表如何和Delta

4、Lake表进行ETL?高效加载和处理方式 通过spark直接加载hive表 需要处理hive表 schema变更(refresh table)Schema管理 schema 增强(schema enforcement)默认情况下,不允许追加schema不匹配的数据 schema进化(schema evolution)mergeSchema=true 什么时候使用schema evolution 表结构发生变更,不想重写整个表多引擎支持 Spark 核心处理引擎 大规模集群 高效任务处理 活跃的社区 良好的适配性 秒级响应 高并发多引擎支持 delta-rs 算法实验 通过 Rust 来实现与

5、Delta 交互的 API,上层实现Python的API 读取性能对比:小数据集上,性能是Spark的30多倍;千万行级别数据,delta-rs仍然优势明显 缺点:对写入支持不完善;存在bug Standalone Reader Java库 读取快照数据,和schema信息 缺点:欠缺维护,存在bug;不支持sql查询,写入时间旅行 算法实验中的场景 如何使用历史数据进行重复实验?分区 算法实验中的场景 如何通过分区提升算法实验的效率 分区字段选择 一般是date类型;需要检查值的分布 对于大表使用,每个分区数据至少1GB流式写入性能优化 小文件合并(compaction)大量小文件-少量大文件 定时清理(vacuum)结合时间旅行的版本使用情况 仅读取需要的列 持续升级版本总结和展望总结和展望 新的特性(Z-Order、DML增强等)更加云原生,融合多引擎(Databricks,Clickhouse等)更加开放,提供SQL查询服务 基于Catalog的数据资产管理 持续回馈开源社区 多位 Spark Contributor,Delta Lake Contributor、delta-rs Contributor感谢您的观看演讲人:李迪砺观远数据研发主管

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(Delta Lake在BI+AI产品中的实践-final.pdf)为本站 (2200) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
客服
商务合作
小程序
服务号
折叠