当前位置:首页 > 报告详情

3 阿里云-StarRocks+Paimon在阿里集团LakeHouse的探索与实践.pdf

上传人: 哆哆 编号:186195 2024-11-01 16页 6.07MB

1、StarRocks+Paimon:阿里集团 Lakehouse 架构的探索与实践翁才智 阿里云技术专家,Apache Paimon PMC Member范振(辰繁)阿里云计算平台开源 OLAP 负责人,StarRocks 社区 Champion阿里集团数据湖(ALake)项目背景数据生产-低效双重研发、资源浪费、数据口径核查难数据存储-冗余导出效率低、数据多份冗余、数据安全敞口数据分析-孤岛数据孤岛、很难形成合力流批统一实时&离线链路统一、一套代码统一存储无需导出、一份数据、权限对齐高性能分析不改变业务体验、更低成本愿景和目标结构化/非结构化数据统一AI、BI 开放互通Lakehouse 业界

2、趋势AI 浪潮风起云涌开源开放成为主流当前痛点全面升级为 Lakehouse 架构一湖多引擎统一元数据和元仓BI+AI 一体化降本提效NoteBookCopilotNL AnalysisIDEPlatform For AIPlatform For AI搜索大数据MCSparkFlinkHoloStarRocks数据集成视频搜RAG文本搜图片搜PaimonFileModelDeltaIceberg统一开发平台 IDE/Notebook训练/推理/开发DataWorksDataWorksDLFDLF统一存储 OSSOSESMilvus大数据搜索AI引擎平权访问引擎基于One Copy数据协同计算*

3、引用自阿里云 2024 云栖大会Why Paimon 最适合流/批/OLAP 统一的湖格式面向流处理的 Lake Store开放的生态体系典型大数据架构离线入仓ODSDWDDWS消 息队列消 息队列消 息队列ODSDWDDWS实时入仓离线数仓实时数仓outputoutput离线数仓离线数仓 架构简单,大量场景适用 中间结果可查 作业夜间运行 延迟较高:天级/小时级 更新成本较高实时数仓实时数仓 延迟低:秒级 中间结果不可查 成本较高,场景有限流式湖仓架构离线入仓ODSDWDDWS实时入仓流式湖仓output实时更新实时更新主键表支持大规模的更新写入更新性能高效更新方式灵活完整变更日志生成分钟级

4、延迟海量追加海量追加非主键表支持大规模流批处理小文件自动合并高效查询高效查询Z-order、索引、Deletion Vector 多种优化高效 OLAP 查询数据管理数据管理PB 级大规模数据管理支持时间旅行(数据版本回溯)支持数据分支切换包含详细信息的系统表Paimon 丰富生态OSSCDC IngestionSQL QueryPython API12022诞生:瞄准 CDC 入湖更新场景在 Flink 社区贡献了第一行代码12023-20242023:进入孵化器引发关注2024:正式毕业成为Apache TLP 项目12024阿里集团 Alake 数据湖战役Paimon 统一存储12024

5、阿里云 Open Lake 战役 计算引擎+Paimon 完整对接一流性能12024阿里、蚂蚁、同程旅行、字节、汽车之家、喜马拉雅、唯品会、VIVO、快手、网易、联通Paimon 在越来越多公司、越来越多场景,帮助业务更实时、更开放、成本更低飞速发展的 2024最适合 Paimon 湖格式的 Lakehouse 开源引擎 StarRocksWhy StarRocks 查询 Paimon 湖格式性能最好的开源引擎OSS/S3 极致优化数据 Scan 优化Plan 优化Runtime 优化13倍性能提升*以上为 EMR 公有云实际测试数据Why StarRocks 存算分离架构统一查询内表和湖表灵

6、活的物化视图灵活的多表联邦灵活的弹性和隔离统一的缓存管理元仓分析元仓分析健康报告实时诊断分析Profile诊断建议全链路可观测StarRocks StarRocks 存算分离集群存算分离集群Warehouse-1Warehouse-1 ETL 任务Warehouse-2Warehouse-2 查询任务缓存信息收集CNCacheCNCacheCNCacheCNCacheCNCacheCNCacheScalingCNCacheCNCacheCNCacheCNCacheCNCacheCNCacheScalingStarO

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
阿里集团在构建数据湖(ALake)项目中,采用了StarRocks和Paimon技术,以解决数据生产、存储和分析中的痛点。数据生产方面,存在双重研发、资源浪费和数据口径核查难的问题;数据存储方面,存在数据冗余和存储效率低的问题;数据分析方面,存在数据孤岛和难以形成合力的问题。StarRocks和Paimon的结合提供了一湖多引擎的统一解决方案,实现了流批统一、实时&离线链路统一,以及一套代码统一存储无需导出、一份数据、权限对齐高性能分析。通过这种方式,业务体验不需要改变,同时降低了成本。此外,StarRocks在查询Paimon湖格式方面性能卓越,存算分离的架构提供了灵活的物化视图和多表联邦,以及统一的缓存管理。StarRocks社区强大,多方协作,贡献开源,支持丰富场景和超大数据量场景。通过基于Paimon湖仓公共层和StarRocks湖仓应用层的架构,业务可以提前60分钟获取数据时效,开发效率提升50%,节省消息中间件和去重成本,查询性能提升10倍。
阿里集团的Lakehouse架构实践如何? StarRocks和Paimon在数据湖中的应用效果如何? 饿了么通过Lakehouse架构升级获得了哪些收益?
客服
商务合作
小程序
服务号
折叠