《3 阿里云-StarRocks+Paimon在阿里集团LakeHouse的探索与实践.pdf》由会员分享,可在线阅读,更多相关《3 阿里云-StarRocks+Paimon在阿里集团LakeHouse的探索与实践.pdf(16页珍藏版)》请在三个皮匠报告上搜索。
1、StarRocks+Paimon:阿里集团 Lakehouse 架构的探索与实践翁才智 阿里云技术专家,Apache Paimon PMC Member范振(辰繁)阿里云计算平台开源 OLAP 负责人,StarRocks 社区 Champion阿里集团数据湖(ALake)项目背景数据生产-低效双重研发、资源浪费、数据口径核查难数据存储-冗余导出效率低、数据多份冗余、数据安全敞口数据分析-孤岛数据孤岛、很难形成合力流批统一实时&离线链路统一、一套代码统一存储无需导出、一份数据、权限对齐高性能分析不改变业务体验、更低成本愿景和目标结构化/非结构化数据统一AI、BI 开放互通Lakehouse 业界
2、趋势AI 浪潮风起云涌开源开放成为主流当前痛点全面升级为 Lakehouse 架构一湖多引擎统一元数据和元仓BI+AI 一体化降本提效NoteBookCopilotNL AnalysisIDEPlatform For AIPlatform For AI搜索大数据MCSparkFlinkHoloStarRocks数据集成视频搜RAG文本搜图片搜PaimonFileModelDeltaIceberg统一开发平台 IDE/Notebook训练/推理/开发DataWorksDataWorksDLFDLF统一存储 OSSOSESMilvus大数据搜索AI引擎平权访问引擎基于One Copy数据协同计算*
3、引用自阿里云 2024 云栖大会Why Paimon 最适合流/批/OLAP 统一的湖格式面向流处理的 Lake Store开放的生态体系典型大数据架构离线入仓ODSDWDDWS消 息队列消 息队列消 息队列ODSDWDDWS实时入仓离线数仓实时数仓outputoutput离线数仓离线数仓 架构简单,大量场景适用 中间结果可查 作业夜间运行 延迟较高:天级/小时级 更新成本较高实时数仓实时数仓 延迟低:秒级 中间结果不可查 成本较高,场景有限流式湖仓架构离线入仓ODSDWDDWS实时入仓流式湖仓output实时更新实时更新主键表支持大规模的更新写入更新性能高效更新方式灵活完整变更日志生成分钟级
4、延迟海量追加海量追加非主键表支持大规模流批处理小文件自动合并高效查询高效查询Z-order、索引、Deletion Vector 多种优化高效 OLAP 查询数据管理数据管理PB 级大规模数据管理支持时间旅行(数据版本回溯)支持数据分支切换包含详细信息的系统表Paimon 丰富生态OSSCDC IngestionSQL QueryPython API12022诞生:瞄准 CDC 入湖更新场景在 Flink 社区贡献了第一行代码12023-20242023:进入孵化器引发关注2024:正式毕业成为Apache TLP 项目12024阿里集团 Alake 数据湖战役Paimon 统一存储12024
5、阿里云 Open Lake 战役 计算引擎+Paimon 完整对接一流性能12024阿里、蚂蚁、同程旅行、字节、汽车之家、喜马拉雅、唯品会、VIVO、快手、网易、联通Paimon 在越来越多公司、越来越多场景,帮助业务更实时、更开放、成本更低飞速发展的 2024最适合 Paimon 湖格式的 Lakehouse 开源引擎 StarRocksWhy StarRocks 查询 Paimon 湖格式性能最好的开源引擎OSS/S3 极致优化数据 Scan 优化Plan 优化Runtime 优化13倍性能提升*以上为 EMR 公有云实际测试数据Why StarRocks 存算分离架构统一查询内表和湖表灵
6、活的物化视图灵活的多表联邦灵活的弹性和隔离统一的缓存管理元仓分析元仓分析健康报告实时诊断分析Profile诊断建议全链路可观测StarRocks StarRocks 存算分离集群存算分离集群Warehouse-1Warehouse-1 ETL 任务Warehouse-2Warehouse-2 查询任务缓存信息收集CNCacheCNCacheCNCacheCNCacheCNCacheCNCacheScalingCNCacheCNCacheCNCacheCNCacheCNCacheCNCacheScalingStarO