1、从阿里云梯到E-MapReduce 无谓(高级技术专家)阿里云-数据库技术组-EMR HadoopHadoop的过去现在和未来 的过去现在和未来 2008年加入阿里,搜索技术中心分布式计算团队 2009年,阿里云数据平台,云梯Hadoop集群开发和维护 2014年,ODPS(MaxCompute),性能和稳定性 2016年,阿里云E-MapReduce关于我(吴威,花名无谓)1.Hadoop 10年发展历程 2.阿里集团的Hadoop之路 3.阿里云E-MapReduce:云上Hadoop服务 目 录 content Hadoop10年发展历程 2006 2007 2008 2009 2010
2、 2011 2012 2013 2014 2015 参考:http:/ KuduIbisFalconKnoxFlinkParquetSentrySparkTezImpalaDrillKa=aFlumeBigtopOozieHCatalogHueSqoopAvroHiveMahoutHBaseZooKeeperPigYARNCoreHadoop KnoxFlinkParquetSentrySparkTezImpalaDrillKa=aFlumeBigtopOozieHCatalogHueSqoopAvroHiveMahoutHBaseZooKeeperPigYARNCoreHadoop Parq
3、uetSentrySparkTezImpalaDrillKa=aFlumeBigtopOozieHCatalogHueSqoopAvroHiveMahoutHBaseZooKeeperPigYARNCoreHadoop SparkTezImpalaDrillKa=aFlumeBigtopOozieHCatalogHueSqoopAvroHiveMahoutHBaseZooKeeperPigYARNCoreHadoop FlumeBigtopOozieHCatalogHueSqoopAvroHiveMahoutHBaseZooKeeperPigYARNCoreHadoop SqoopAvroHi
4、veMahoutHBaseZooKeeperPigCoreHadoop HiveMahoutHBaseZooKeeperPigCoreHadoop HBaseZooKeeperPigCoreHadoop PigCoreHadoop CoreHadoop(HDFS,MapReduce)离线平台到在线平台 批量 计算 离线 计算 T+1流式 计算 实时 计算 在线 分析 YARN成为大数据操作系统 Spark Flink Tez Storm HiveonSpark HiveonTez PigonStorm MapReduceOnly YARN之前 YARN之后 Hadoop成为企业级解决方案 数据
5、存储和计算 HDFS、HBase、Kudu YARN、Mesos Spark、Hive、Pig、MR、Impala、Presto 安全性 Sentry Knox Ranger 数据管理 Falcon Atlas 运维 Ambari Ozzie 图形化分析工具 Hue Zeppelin 数据流工具 Kafka、Flume、Sqoop Mahout-Oryx:批处理模式到实时模式的机器学习工具分布式编程框架都有机器学习的库并且扩展到更多的语言 SparkMLlib、FlinkML SparkR、Python深度学习和Spark、Hadoop结合更加紧密:CaffeOnSpark、Deeplearn
6、ing4j TensorFlow:和HDFS、Spark的结合 机器学习和人工智能 2008年-2009年:多部门独立的Hadoop集群 2009年-2015年:云梯集群和服务 集群统一运维,专业的开发团队 数据统一管理,集团层面的全局视图 资源错峰分配,整体成本最优 2015年-至今:阿里云E-MapReduce 阿里云对外的Hadoop基础服务阿里集团的Hadoop之路 全局资源调度:支持业务优先级(基于FairScheduler)安全性:HDFS上的扩展ACL,Hive