《王云霏-探索Lakehouse架构极致查询性能.pdf》由会员分享,可在线阅读,更多相关《王云霏-探索Lakehouse架构极致查询性能.pdf(34页珍藏版)》请在三个皮匠报告上搜索。
1、王云霏目录WHY LAKEHOUSE?1.数据类型多样化2.成本与扩展性3.高级数据分析(AI)问题与挑战核心优势1.数据质量2.查询性能3.事务支持1.复杂的ETL链路,2.降低时效性3.数据一致性,冗余存储问题与挑战核心优势1.统一入湖2.开放访问BI、ReportsAI、MLLakehouse的业务价值One data,all analytics1.开放统一的数据存储,Single source of truth2.一份数据,多样化的Workload,服务企业AI、BI的数据应用3.原生存算分离,弹性计算实现极高性价比BatchStreamAnalyticsMetadata、Cachin
2、g、Index dataHOW LAKEHOUSE?StorageCatalogEngineObject Storage 作为统一存储底座开放的数据存储格式数据以 Catalog 形式向上层提供统一的数据访问控制、数据治理计算引擎解决各个场景的需求追求性价比BI、ReportAI、ML数据工程师无需维护复杂 ETL Pipeline数据分析师实时高效的在数据湖上进行探索分析数据科学家直接访问开放数据,构建 AI 应用企业经营/管理者简单高效的数据分析驱动企业经营决策StarRocks BEStarRocks BEStarRocks BE架构简单,性能强悍小红书1.无需维护额外的 ETL pip
3、eline,2.存储成本下降 50%3.查询性能提升3倍,P90 延时降到10s量级微信离线/近实时场景实时场景数据直接入Iceberg,时效性10分钟级,查询响应亚秒级数据入StarRocks,将冷至Iceberg,数据新鲜度秒级HOW ABOUT LAKEHOUSE?CBO优化器向量化执行引擎MPP执行框架CBO优化器向量化引擎MPP执行框架千军易得,良将难求将士用命,以一当三韩信点兵,多多益善metadata解析开销大缺少统计信息冷数据IO访问开销大Cache不够smart字符串处理开销大文件解析开销大极高并发极低延迟痛点:元数据解析开销大元数据规模较大时:Plan阶段耗时过长,对FE节
4、点的CPU和内存依赖过重 Iceberg Job Planing耗时显著增加Distributed MetaData Plan 消除FE性能瓶颈 元数据解析性能提升n倍痛点:Data Lake统计信息不足导致plan严重恶化查询触发统计信息收集OptimizerConnectorTableCacheStatscollectStatisticsPendingTaskQueueRunningTaskQueueget table statisticsinvalid outdated cacheadd pending task痛点:冷数据IO访问开销大针对AWS客户端进行优化,可以支持所有S3兼容的对
5、象存储数据copy开销网络客户端收发开销zero-copy poco clientpoco 连接池network bandwidthcpu usagedefaultpocodefaultpocoimprovement:13%+11%痛点:Cache很好,但是不够smart访问频次不高,但是延迟敏感 手动预热 周期预热痛点:Cache很好,但是不够smart 磁盘已达瓶颈,远端访问也许更快ExecutorLocal CacheOSS/Hdfsbusyadaptive io IO自适应insert into blackhole()select*from lineitem;353GB-188G远端访
6、问,38s优化前 88s痛点:Cache很好,但是不够smart 弹性场景,cache miss引起的性能抖动 无需额外硬件成本,节点间缓存共享 降低增删节点时延时抖动 请求自适应,改善集群资源瓶颈Cache SharingcacheBEcacheBEcacheBEcacheBEcacheBEOrigin NodesNew Nodesread cacheread cacheS3/HDFSQueries痛点:字符串执行效率低低基数优化难以向量化内存占用高传递开销大数据分析场景的字符串80%是低基数字符串select sum(lo_revenue)from