Apache Celeborn和数据湖计算引擎云原生实践.pdf

编号:121844 PDF 22页 7.87MB 下载积分:VIP专享
下载报告请您先登录!

Apache Celeborn和数据湖计算引擎云原生实践.pdf

1、Spark/Flink+Celeborn:更快,更稳,更弹性演讲人:一锤阿里云2023 背景性能稳定弹性背景传统Shuffle的问题传统Shuffle的缺陷 依赖大容量本地盘/云盘 IO放大 高网络连接 磁盘随机读 单副本限制 不够高效 不够稳定 不够弹性Apache Celeborn(Incubating)Celeborn:大数据引擎统一中间数据服务 引擎无关 Shuffle+Spilled datahttps:/ 700+Commits 33 Contributors,7 Committers(3 in-coming)370+Stars性能核心设计Push Shuffle+Partitio

2、n数据聚合Partition切分存算分离写放大磁盘随机小IO网络高连接小IO支持Spark AQEPartition合并Join Strategy切换Skew Join优化Partition范围读Map范围读12Split切分Sort On Read3Range Read列式Shuffle 行列转换 代码生成 解释执行 代码生成行列转换:(Int,String,Decimal)Shuffle Size缩减40%,行列转换开销低于5%多层存储 内存/本地盘/OSS(HDFS)可任选1/2/3层配置 让数据尽可能存在快存储稳定原地快速升级 向前兼容 优雅重启流控参考TCP的拥塞控制 慢启动 拥塞避

3、免 拥塞检测其他实现:Credit Based Flink Shuffle Read负载均衡磁盘监控 坏盘 刷盘速率 未来用量 隔离坏盘 尽量分配给快盘/大盘弹性Spark on K8S开源方案:spark.dynamicAllocation.shuffleTracking.enabled=true限制:几乎无法释放podEvaluation典型场景完全混部 提升性能&稳定性Celeborn独立部署 提升性能&稳定性 源数据和Shuffle数据分离 部分弹性存算分离 提升性能&稳定性 计算,数据,临时数据分离 完全弹性超大作业 混部场景:大作业稳定性&性能显著提升 1000+Celeborn Worker 压缩后4PB Shuffle Data存算分离 存算分离场景 100台Celeborn Worker 数万pods,极致弹性 性能和稳定性显著提升TPCDS 3T TPCDS 20%性能提升感谢您的观看演讲人:一锤-阿里云

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(Apache Celeborn和数据湖计算引擎云原生实践.pdf)为本站 (2200) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
客服
商务合作
小程序
服务号
折叠