《阿里巴巴HBase的一些实践与探索(39页).pdf》由会员分享,可在线阅读,更多相关《阿里巴巴HBase的一些实践与探索(39页).pdf(39页珍藏版)》请在三个皮匠报告上搜索。
1、HBase的实践与探索 沈春辉 阿里-中间件-高级专家 大数据时代的存储 大数据时代的存储?大数据的应用形式 万物万面,精准定像 数据赋能,运筹帷幄 智能生活 大数据场景的数据特点 基础量大 增长快 计算与存储的实时性要求迫切 时效性短 易发散 易产生脏数据Value Variety Volume Velocity PART-1:HBase在大数据中的价值 PART-2:应用案例 PART-3:阿里基于HBase的存储建设 PART-4:未来展望 目 录 content?Where HBase HivePostgreSQLOracleCassandraMysqlHBaseDB2MongoDBC
2、ouchDBSolrSQLServerHANATeradataImpalaNeo4jSQLiteRedisElasHcSearch?HivePostgreSQLOracleCassandraMysqlHBaseDB2MongoDBCouchDBSolrSQLServerHANATeradataImpalaNeo4jSQLiteRedisElasHcSearchWhere HBase?HBase HadoopDatabase,是一个基于GoogleBigTable论文设计的高可靠性、高性能、可伸缩的分布式存储系统。松散松散表实时更新、增量导入增量导入、多维删除多维删除随机查询、范围查询高伸缩、高
3、可用、高可靠、高性能、高适应高适应在线在线分布式NOSQL数据库HBase?HBase HDFS Zookeeper HBase MR Hive Storm Spark Kylin Drill OpenTSDB 计算 数据库 数据交换 Sqoop Flume Kafka Ambari Hue 系统 管理 Phoenix Trafodion Tephra Calcite Argus Yarn?HBase?HBase 自动分区 LSMTree 存储计算分离 Hadoop生态 四大基因?HBase 数据分片 分区自动分裂 分区在线Merge数据爆发式增长访问爆发式增长?HBase LSM(LogSt
4、ructuredMerge)Tree HBase/LevelDB/RocksDb 随机写-顺序写 LSM特点 写吞吐高 不受SSD随机写入放大随机写入放大干扰 不受空间放大空间放大干扰?HBase 存储计算分离 负载均衡更高效 资源扩容更节省 存储优化更便捷 非对称副本冗余:异构介质、ErasureCode等?HBase Hadoop生态 共享共建 加速创新 繁荣社区 Hive元数据使用HBase存储(HIVE-9452)YARN应用Hmeline服务使用HBase存储(YARN-2928)Ambari监控数据使用HBase存储(AMBARI-5707)SparkonHBase(HBASE-1
5、4789)?HBase 动态列 数据发散的利器 协处理器 数据校正 高效适应个性化 异构介质多副本存储 海量与实时的性价比满足 ErasureCode 因大而生HBase,为大数据而生 LSM树 离线导入效率巨高 实时写入吞吐大 增量导入隔离性强 伸缩性强 TTL 数据时效性,系统自动处理 时效性的个性化设置 多版本 数据的第三维度 高效删除方式 PART-1:HBase在大数据中的价值 PART-2:应用案例 PART-3:阿里基于HBase的存储建设 PART-4:未来展望 目 录 content?事件 人物 环境 时间 方式 行为 HBase集群 实时明细写入 在线风控台 明细增量导出
6、离线计算 日账结果回流 明细日账 实时查询 低价清理 过期淘汰 过载淘汰 每秒写入 百万级 每秒查询 百万级 十TB级导入?数据源(DB、日志)交易 加购 收藏 高吞吐消息通道HBase集群 实时计算HBase集群 HBase集群 实时数据服务每秒流量 GB级 每秒请求 百万级 毫秒级查询?HBase集群 PB级数据 千万级实时吞吐 BigGraph IoT GEO 日志 聊天 监控 消费 PART-1:HBase在大数据中的价值 PART-2:应用案例 PART-3:阿里基于HBase的存储建设 PART-4:未