《天穹SuperSQL如何应对数据湖场景中的复杂多维分析.pdf》由会员分享,可在线阅读,更多相关《天穹SuperSQL如何应对数据湖场景中的复杂多维分析.pdf(22页珍藏版)》请在三个皮匠报告上搜索。
1、天穹SuperSQL如何应对数据湖场景中的复杂多维分析演讲人:程广旭-腾讯TEG数据平台部2023 SuperSQL架构自适应计算引擎实时湖仓融合未来展望SuperSQL 技术架构介绍SuperSQL整体架构架构SuperSQL 目标目标l依托腾讯大数据生态,持续完善自适应计算能力,打造完整的大数据极速查询解决方案l实现三网合一的云原生化,减少大型复杂查询的等待痛点l持续探索技术先进性,构建高性能的融合分布式计算框架,实现引擎层的闭环统一管理计算融合l 跨源:支持访问不同类型/版本的数据源l 跨引擎:支持外接多类分布式计算引擎l 跨DC:支持跨集群/地域的SQL编排计算解耦l 快速构建:不重复
2、“造轮子”,复用开源计算引擎l 轻量级解耦:不强依赖特定引擎,少做侵入性修改l 场景自适应:根据SQL特征,智能挑选主流执行引擎SuperSQL技术沙盘SuperSQL自适应计算引擎SQL 兼容:插件式解析模块,支持多引擎问题问题背景:大数据引擎/数据源异构多样,存在SQL语法的差异,业务任务进行迁移或引擎切换时,无法使用同一查询语句,给业务带来不便目标:一个SQL入口,多种执行引擎 部分语法与业务强耦合,定制化严重 语法强行融合到单一规范,导致冲突和歧义l 语法种类,将其分为通用型和独特型l SQL语法模板化,分类管理,灵活切换 执行引擎多样,需要做到业务SQL脚本的无感切换l 找到实现业务
3、SQL的等价引擎表达式,生成映射关系l 基于映射关系重写语法树,基于引擎方言生成合规SQL计算引擎自适应:人工到智能的实践SQL下发数据源THiveHiveHermesClickHouseDC集群计算引擎统一元数据CBO统计信息SuperSQL跨集群/DC RBO/CBO/HBO智能引擎选择HBO负载记录SparkPrestoHiveDDL/元数据命令离线分析交互式查询复杂算子下推提升计算效率,节省系统资源数据统计:表列统计信息历史统计:执行状态/时间/引擎、shuffle数据量/cpu时间等统一SQL接口统一逻辑视图算力感知,自动选择资源空闲集群AI分析中心算法预测结果特征提取-特征选择-数
4、据增强-模型训练-模型预测n-gram TF-IDF 提取SQL特征XGBoost 预测Presto执行是否成功MySQLPGStarRocks计算提效Failover:SuperSQL为某条用户SQL智能计算提效,但后续提交所选引擎执行失败,需要failover其它引擎执行引擎选择规则RBO:SQL类型、引擎是否支持等CBO:SQL复杂度、算力感知等HBO:历史SQL执行情况等AI预测:提取SQL特征,选择合适引擎新一代实时湖仓融合平台传统实时湖仓一体架构优点:增量读取,实时性好 相较MQ更加稳定性缺点:查询借助外部引擎,查询性能一般实时湖仓融合架构优点:数据实时性更高,接入简单 查询性能更
5、优缺点:相较于iceberg等湖格式,支持的能力欠缺实时/离线数据入仓实时Table1p_20230303p_20230302p_20230228p_20230301p_20230227Table2p_20230303p_20230302p_20230228p_20230301p_20230227TubePulsarFlink离线HiveicebergHudi数据接入实时数仓HiveIcebergHudi降冷入湖分区映射实时入仓入仓加速数据湖数据湖融合分析1数据实时写入到仓,并定时降冷到湖1数据实时入湖后,离线导入到仓融合查询2数据实时双写入仓与入湖121双写入湖2冷热数据分区映射2离线数据入
6、仓Iceberg数据组织架构处理流程S0与s1增量文件ClientFEIceberg routine load job预处理增量文件TaskTaskTaskBEBEBE实时数据入仓及降冷实时数据通过Routine Load 任务数据降冷流程自适应融合查询StarRocksHermesClickHouse分析型存储数据湖冷存储SuperSQL定时调度热查询冷热查询冷查询查询类型直接下推冷热表映射信息基础元数据SQL Parser查询冷热映射信息提交SQL到计算引擎AnalyzerLogicalPlan统一元数据判断S