1、阿里巴巴开源大数据平台演进之路王峰(莫问)阿里云研究员、开源大数据平台负责人200920152021云梯-Hadoop大数据平台大数据上云大数据实时化云原生大数据平台第一阶段第二阶段第三阶段阿里巴巴开源大数据平台演进历程ClickhouseContents目录01基于 Hadoop 构建第一代大数据平台02大数据上云以及实时化演进03大数据进入云原生时代基于 Hadoop 构建第一代大数据平台01云梯 阿里巴巴第一代开源大数据平台20092010201120122013第一个 Hadoop 集群上线Hadoop 达到千台规模Oracle RAC 迁移完成跨机房集群架构上线20010002000
2、3000800010000020004000600080001000012000200920102011201220132014Hadoop 集群规模Hadoop-2.0 架构上线大数据上云以及实时化演进02EMR 云上 Hadoop 大数据平台 中小企业对开源大数据技术需求激增 大数据分析对集群算力有较大的要求 云计算天然就是提供弹性计算能力E-MapReduceCloudHadoopSparkPrestoKafkaHBaseHive2016年离线计算2017年交互式分析消息队列2019年实时计算深度学习2021年数据湖格式数据缓存EMR-1.0 Hadoop 存算一体架构计算&存储基础资源
3、分布式计算引擎云主机 存储成本高o 容量预留,磁盘空间利用率低o 缺乏冷热分层管理,存储效率低 集群规划难o 计算与存储耦合,无法灵活容量规划o 机器带有状态,无法弹性扩缩容o 交付周期长,阻碍业务快速发展 运维负担重o HDFS HA 架构复杂,门槛高o HDFS 故障恢复慢,风险大o HDFS 坏盘、坏节点随规模增加分布式存储系统EMR-2.0 数据湖存算分离架构计算层存储加速层存储格式层开源大数据引擎HDFS 兼容与加速数据存储层数据湖存储格式数据湖存储云对象存储 存算分离架构、支持弹性扩缩容 支持容器化混布,资源利用率高 数据入湖、ETL 和分析 数据与元数据访问加速 兼容 HDFS
4、API 与完整生态 联合 OSS 提供云原生全托管 HDFS 开放的数据存储格式,ACID 保证 支持实时更新等特性,实时离线一体化 元数据管理对计算引擎更加友好 云原生存储,免运维,高可用 按量付费,弹性使用,总成本低 冷热分层数据存储,智能高效EMR-2.0 开源数据湖解决方案数据库 BinlogAPP 日志ODSDWDDWS数据湖实时入湖阿里云 OSS 对象存储阿里云 Jindo FSHDFS APIIOT 信息流大数据从规模化向实时化演进双 11 电商交易统计实时大屏城市交通路况实时监测实时个性化推荐基于 Flink 构建实时大数据平台 阿里集团最核心业务场景 双11实时推荐提升GMV
5、 初露锋芒发源于搜推广2016201720182019 阿里集团实时数据业务 双11 GMV 大屏秒级更新 集团内部平台化扩展到全集团 基于 Flink 的实时计算产品 开始服务标杆客户 阿里云对外产品化公有云上线 收购 Flink 创始公司 Ververica 成为 Flink 社区最大推动者 全球最强 Flink 团队会师收购 Flink 创始公司2020 全球主流 IT 公司全面采用 Flink 全球主流云厂商推出 Flink 产品 Flink 成为实时计算领域事实标准业界事实标准Flink 推动阿里集团全链路实时化数据中台GMV 等实时大屏商业化链路全面实时化计算能力:50 亿条记录/
6、秒计算规模:X万 Jobs计算资源:百万核 CPU搜推广在线机器学习物流实时订单监测在线服务日志数据库更新日志安全实时安全风控电商交易库存实时对账交通实时路况检测Flink 推动阿里集团实时离线一体化业务开发统一一套代码逻辑服务层存储统一同比灵活查询自研实时数仓(Hologres)自研离线数仓(MaxCompute)业务层逻辑统一面向逻辑表开发Flink SQL流批统一逻辑表计算引擎统一数据强一致性Flink 流任务Flink 批任务消息队列映射映射流批一体计算层实时 分区历史 分区流批一体存储层 流和批一套 SQ