《杨克特Data Warebase 一体化数据平台的云原生实践.pdf》由会员分享,可在线阅读,更多相关《杨克特Data Warebase 一体化数据平台的云原生实践.pdf(35页珍藏版)》请在三个皮匠报告上搜索。
1、杨克特目录实时读写应用应用服务实时读写搜索服务快照CDC快照CDC全量处理增量处理离线分析实时分析ProsConsooooooooRDS实时读写应用应用服务实时读写快照CDC快照CDCS3RedshiftCloudSearch全量处理增量处理搜索服务离线分析实时分析RDS应用应用服务S3事务和分析混合负载事务和分析混合负载?RedshiftCloudSearch实时离线处理一体化实时离线处理一体化口径不统一向量数据库向量检索向量检索离线特征离线特征实时特征实时特征数据不一致开发效率低成本不可控稳定性差迭代效率低开发门槛高开发视角开发视角运维视角运维视角业务视角业务视角QuickBIDBeave
2、rGormMybatisSQLAlchemyDBTpgAdminhash(key)%3keykeyabcdefghijklkeykey.abcdefghijklafilbegkcdhj分片1分片2分片3分片1分片2分片3数据分布一般较均匀可能不均匀查询路由分区键 O(1)非分区键广播维护全局路由信息实现复杂度低高从系统实现者的角度从系统实现者的角度从用户的角度从用户的角度范围查询效率低效率高易用性需要配置分片数无需配置扩缩容代价高迁移 n/(n+1)数据低可自动进行保障吞吐保障吞吐计算层使用本地Cache加速存储层使用对象存储ProsCons高吞吐高吞吐+低延迟低延迟使用高速本地盘或云盘保障延
3、迟低延迟、高可靠的读写接口专门的存储服务内置 Raft/Paxos 一致性协议ProsConsMultiMulti-ClusterClusterComputeComputeCloud StorageCloud StorageWarebaseWarebase B BUnit 2WarebaseWarebase A AUnit 1 Unit 3Unit 1Centralized Centralized StorageStorage列存列存适合分析型场景高效的多维过滤与聚合更高的压缩率混合存储混合存储ZeroZero-ETLETL数据强一致数据强一致行存行存适合事务型场景高性能实时写入高性能点查相同
4、计算组软隔离相同计算组软隔离不同计算组硬隔离不同计算组硬隔离阶段阶段三三:统一计算模型:统一计算模型 使用物化视图来描述业务逻辑 使用增量计算来统一计算模型Table1Table2MV全量初始化Table1Table2MV增量刷新对齐离线SQL,没有额外的学习负担全量初始化+增量刷新增量不依赖 State,自由灵活切换计算形态 结果表直接提供实时查询服务无需同步至外部系统丰富的调优手段(存储格式,索引等)2 26 65 58 87 71 14 43 3语义搜索关键词搜索向量索引倒排索引KafkaDatabase多模态检索Raw DataFeatures实时数据系统TransformIngestBusiness App实时决策Business App实时分析探索数据科学家机器学习工程师应用服务实时读写多模检索 云原生的现代数据系统,可以充分发挥云的各项优势 实时、多模、一体化是数据系统的重要演进方向 AI 会给数据系统带来更旺盛的需求和更大的挑战 Data Warebase 是我们对这一趋势的总结和实践大模型正在重新定义软件Large Language Model Is Redefining The Software