《4-2 Hologres:阿里建设高吞吐、多负载的实时数仓平台.pdf》由会员分享,可在线阅读,更多相关《4-2 Hologres:阿里建设高吞吐、多负载的实时数仓平台.pdf(42页珍藏版)》请在三个皮匠报告上搜索。
1、HOLOGRES:阿里建设高吞吐、多负载的实时数仓平台刘一鸣 阿里云 MaxCompute&Hologres产品组|01实时数仓需求解析实时数仓需求解析02Hologres技术原理技术原理03推荐架构场景推荐架构场景04典型案例实践参考典型案例实践参考目录目录CONTENT|实时数仓需求解析01|业务在线化、运营精细化驱动数据实时化|领导驾驶舱实时大屏洞察业务变化实时精细化运营数据分析民主化实时数据中台实时用户画像个性化推荐风控ToB:支撑数据决策ToC:提效在线转化|实时写入实时聚合交互式、探索式分析持续聚合批量聚合在线服务维表Lookup批流多路、混合负载的实时数仓场景明细数据聚合数据维度
2、数据大数据实时数仓体系的“纷繁芜杂”|KafkaFlinkSubscriptionArchivingRealtime IngestionRealtime IngestionDim Table JoinHiveClickHouseDruidHBaseCassandraDrillPrestoRedisMysqlAPIApplicationsReportsDashboardsResultCachingBatch Processing批处理Offline Acceleration 离线加速Federated Analytics 联邦计算Point Lookups 点查询Realtime Analyti
3、cs实时计算结果缓存MaxCompute架构复杂、数据同步难、资源消耗大、数据孤岛、人才培养难、开发成本高、不敏捷实时数仓核心需求:时效性|实时(端到端延时问题)运营类,分析类计算后置,分析驱动实时写入,写入即可分析海量数据,灵活分析,自助分析准时(决策时取数问题)风控类,大屏类计算前置,事件驱动实时加工,实时写入实时数仓核心需求:数据质量|多久发现质量问题多久修正质量问题数据状态(明细&汇总)可检查简化数据重刷,数据可更新(批量、单行、单字段)减少属于冗余和不一致减少链路,减少上下游依赖实时数仓核心需求:成本优化|开发成本(上线新业务)运维成本(集群资源)人力成本(学习&招聘成本)业务与技术
4、解耦,数据资产可复用,业务自助开发简化链路,减少依赖,减少数据传递更少的组件,更少的运维工作托管的服务,简化运维弹性伸缩,应对洪峰开发接口标准简单,降低学习成本,SQL preferred兼容主流BI什么是好的实时数仓平台|实时写入,高吞吐 实时更新,灵活 写入即可用,查询不阻塞 交互式查询,亚秒级 标准SQL接口,Table模型 分布式,可扩展 支持海量数据分析OLAP 企业级数据管理首先是数仓面向实时场景优化一站式实时数仓 端到端实时加工 支持在线业务(负载隔离、读写隔离,高可用,分析服务一体)实时离线一体1.02.03.0Big Data is Dead,Big Data Long Li
5、ve|离散文件层级结构网络结构关系型数据库成长于80年代NoSQL&NewSQL2010+明天ServingAnalyticsTransactionHybrid Transaction/AnalyticsProcessing(HTAP)强事务机制保证ACID适合模型简单,简单分析场景,以TP模型解决AP的问题Hybrid Serving/AnalyticsProcessing(HSAP)最终一致性(减少分布式锁)以数仓模型(抽象、复用、标准)解决数据服务的问题随机读写、支持事务ACID、锁、面向DBA高并发、查询简单、快速,数据可更新,面向在线应用(toC)大规模数据扫描、过滤、汇总,语义层,
6、分布式,列式存储,数据更新弱,面向分析师|一站式实时数仓理念HSAP:分析、服务一体化数据应用多维分析(Analytics)数据看版(Serving&Analytics)在线应用(Serving)实时数仓 Hologres离线数据:批量导入(Batch)实时数据:实时更新(Streaming)统一数据存储统一数据服务HSAP:HybridServing&AnalyticalProcessingHologres技术原理02|阿里双11实时业务一体化数仓实践|数据存储用户/商品/交易数据数据同步服务报表系统数据定时归档类目数据批量更新类目维表Lookup高QPS,点查可视化大屏ECS行为数据离在线