阿里巴巴Spark实践与探索（21页）.pdf

上传人：云闲

编号：91451

2021-01-01

PDF 21页 4.30MB

《阿里巴巴Spark实践与探索（21页）.pdf》由会员分享，可在线阅读，更多相关《阿里巴巴Spark实践与探索（21页）.pdf（21页珍藏版）》请在三个皮匠报告上搜索。

1、内存计算时代封神(曹龙)阿里云技术专家阿里巴巴Spark实践与探索阿里巴巴Spark实践与探索自我介绍曹龙，花名封神阿里云技术专家；专注在大数据领域，7年分布式引擎研发经验；先后研发上万台Hadoop、ODPS集群；先后负责阿里YARN、Spark及自主研发内存计算引擎；目前为广大公共云用户提供专业的Hadoop服务。提纲数据处理技术 Spark介绍阿里Spark历程 Spark在云上Spark未来数据处理技术硬件、机房分布式调度分布式存储分布式计算作业管理、作业流数据治理、作业生命周期大数据产品数据处理时间与数据量 ms s m h G T P Kylin

2、Impalakudu DB/MPP VS 分布式引擎 DB/MPP Hadoop引擎引擎硬件小型机 Raid高端存储普通PC机器容错重跑即可需要容错调度模型线程 CPU/Memory衡量标准 QPS 吞吐Hadoop生态计算引擎 Batch BatchInteracHve BatchInteracHveMemoryNear-RealTimeStreamingFullStackMapReduce DAG：DirectAcyclicGraphsRDD：ResilientDistributedDatasetsCycllcDataflowsHybrid(Batch+Streaming

3、)InteracHveReal-TimeStreamingNaHveIteraHveProcessingFullStack1G 2G 3G 4G Hybrid(Batch+Streaming)InteracHveMemoryNear-RealTimeStreamingFullStackRDD：ResilientDistributedDatasets3.8G Spark1.0 Tungsten1.0(执行器)Scheduler(调度策略)RDD(物理执行计划)Catalyst(优化器)Dataframes SQL Streaming Mllib ETC Scala Java Python R S

4、park2.0 Tungsten2.0(执行器)Scheduler(调度策略)RDD(物理执行计划)Catalyst(优化器)Dataset(逻辑执行计划)Dataframes SQL Streaming Mllib ETC Scala Java Python R Spark 链路 SQL Selectsum(d.money),a.cityfromdealdjoinaddressaona.id=d.address_idandd.ds2015-08-09groupbya.city RDD Catalyst Task Scheduler Thread Tungsten 北京北京 10000 上海

5、 9000 杭州 8000 Spark Core SimpleReuseJVMFullStackShufflePullBaseShuffleNeiyCacheMemory&DiskFailoverLineageCheckpointBroadcastTungstenOffHeapCache-awarecomputaHonShuffleCatalystCode-GenCBOETCSpark在阿里 10-12年初步尝试 Spark10台左右，standalone模式 SparkMllib机器学习12-14年 SparkonYarn100-400台规模SparkMllib、SparkStreamin

6、g、SparkGraphx14年 Moye内存计算15-nowE-MapReduceforSpark对公共云提供服务，主要是作业平台、运维平台SparkAllStack Spark弹性伸缩 Metadata Thrimserver SparkexecutorBeelineuser1./beeline-ujdbc:hive2:/localhost:10000spark.dynamicAllocaHon.minExecutors=1spark.dynamicAllocaHon.maxExecutors=100 Beel

阿里巴巴Spark实践与探索（21页）.pdf

相关报告