《2-1 从 Apache Doris 存算分离到 PALO 的湖仓一体.pdf》由会员分享,可在线阅读,更多相关《2-1 从 Apache Doris 存算分离到 PALO 的湖仓一体.pdf(17页珍藏版)》请在三个皮匠报告上搜索。
1、从DORIS存算分离到PALO的湖仓一体彭翔宇 百度 资深研发工程师|01DORIS历史回顾02DORIS数据结构03存算分离04PALO湖仓一体目录 CONTENT|01DORIS历史回顾Apache Doris历史回顾,诞生于百度,孵化于 Apache 软件基金会|诞生诞生于INF DT,解决凤巢报表问题2008推广百度全面推广,普及使用2012开源在 GitHub 开源2017捐赠进入 Apache 软件基金会孵化2018发展社区蓬勃发展,各项指标增长迅速2021毕业完成毕业,成为顶级项目2022未来发展历程国际化2008 年,Doris 在百度诞生,定位为高性能分析型数据库,大幅提升了
2、百度凤巢业务的数据分析时效性。2012 年,Doris 成长为百度首个公司级 OLAP 分析平台并正式改名 PALO(OLAP 的反写)。2017 年,PALO 正式在 GitHub 开源。2018 年,百度将 PALO 的核心引擎捐赠给 Apache 软件基金会,并命名为 Apache Doris,百度 PALO 团队开始全力推进 Doris 社区发展。2021 年,在百度 PALO 团队与社区伙伴的共同努力下,Apache Doris 社区走上发展快车道。2022 年,百度正式完成商标捐赠,推进 Apache Doris 完成毕业,成为 Apache 软件基金会顶级项目。|02DORIS数
3、据结构DORIS的数据存储结构|lTABLET:表的物理分桶lROWSET:每一批次数据导入对应一个 ROWSETlSEGMENT:由ROWSET拆分而成,每个 SEGMENT对应一个数据文件DORIS的数据存储结构|lFooter:包括文件信息及各片段的位置lIndexRegion:数据的索引信息lDataRegion:实际数据,列存储lPage:数据的基本存储单元本地存储的局限性|l优点l缺点u数据读写速度快u文件合并与清理简单u本地挂载磁盘的成本太高u计算跟着存储走,负载均衡有局限性u数据迁移困难|03存算分离DORIS冷热数据|lIO层抽象l远端数据存储载体:S3、HDFSl本地数据缓
4、存层CACHEl存算分离与冷热数据相结合|PALO存算分离lTABLET的元数据信息与BE分离l远端存储保存全量的TABLET数据lBE保存部分热数据,以缓存的形式存在lBE不再保存多副本,数据与远端存储上的数据一致|04PALO湖仓一体PALO湖仓一体|l通过外表方式访问其他数据源l支持与spark/flink的对接PALO湖仓一体|lMysqlScanNode访问mysql外表数据lEsHttpScanNode访问ES外表数据lOdbcScanNode支持odbc接口,可访问oracle、mysql等数据PALO湖仓一体|lFE读取外表元数据l根据元数据解析出数据格式及存储lBE层读取实际的文件PALO湖仓一体|lFlink/Spark connectorlFlink/Spark ETL非常感谢您的观看|