Apache HBase - Amazon EMR
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

Apache HBase

HBase 是一种开源、非关系型分布式数据库,它作为 Apache 软件基金会的 Hadoop 项目的一部分开发。HBase 在 Hadoop Distributed File System(HDFS)上运行,为 Hadoop 生态系统提供非关系数据库功能。HBase 包含在 Amazon EMR 发行版 4.6.0 及更高版本中。

HBase 与 Hadoop 无缝协作,共享其文件系统,并充当 MapReduce 框架和执行引擎的直接输入和输出。HBase 还可与 Apache Hive 集成,可通过 HBase 表实现类似 SQL 的查询、与基于 Hive 的表连接以及对 Java 数据库连接(JDBC)的支持。有关 HBase 的更多信息,请参阅 Apache 网站上的 Apache HBaseHBase 文档。有关如何将 HBase 用于 Hive 的示例,请参阅Amazon大数据博客文章 Combine NoSQL and massively parallel analytics using Apache HBase and Apache Hive on Amazon EMR

在 Amazon EMR 上使用 HBase,您还可将 HBase 数据直接备份到 Amazon Simple Storage Service(Amazon S3),并在启动 HBase 集群时从之前创建的备份还原。Amazon EMR 提供与 Amazon S3 集成的其它选项以实现数据持久性和灾难恢复。

  • HBase on Amazon S3 – 对于 Amazon EMR 版本 5.2.0 及更高版本,您可使用 HBase on Amazon S3 将集群的 HBase 根目录和元数据直接存储到 Amazon S3。随后,您可以启动新集群,将其指向 Amazon S3 中的根目录位置。一次仅一个集群可使用 Amazon S3 中的 HBase 位置,只读副本集群例外。有关更多信息,请参阅HBase on Amazon S3(Amazon S3 存储模式)

  • HBase 只读副本 – 具有 HBase on Amazon S3 的 Amazon EMR 版本 5.7.0 及更高版本支持只读副本集群。在只读操作中,只读副本集群提供对主集群的存储文件和元数据的只读访问权限。有关更多信息,请参阅使用只读副本集群

  • HBase 快照 – 作为 HBase on Amazon S3 的替代方案,对于 EMR 版本 4.0 及更高版本,您可为直接传输至 Amazon S3 的 HBase 数据创建快照,然后使用快照恢复数据。有关更多信息,请参阅使用 HBase 快照

重要

对于 Amazon EMR HBase 集群扩展,不建议对 HBase 集群使用托管扩展使用自定义策略进行扩展

下表列出了 Amazon EMR 6.x 系列的最新发行版附带的 HBase 版本,以及 Amazon EMR 随 HBase 一起安装的组件。

有关此发行版中随 HBase 安装的组件版本,请参阅 Release 6.14.0 Component Versions

emr-6.14.0 的 HBase 版本信息
Amazon EMR 发行版标签 HBase 版本 随 HBase 安装的组件

emr-6.14.0

HBase 2.4.17

emrfs, emr-ddb, emr-goodies, emr-kinesis, emr-s3-dist-cp, emr-wal-cli, hadoop-client, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-httpfs-server, hadoop-kms-server, hadoop-mapred, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, hbase-hmaster, hbase-client, hbase-region-server, hbase-rest-server, hbase-thrift-server, hbase-operator-tools, zookeeper-client, zookeeper-server

注意

Apache HBase HBCK2 是一个独立的操作工具,用于修复 HBase 区域和系统表。在 Amazon EMR 版本 6.1.0 及更高版本中,主节点 上的 /usr/lib/hbase-operator-tools/ 中提供 hbase-hbck2.jar。有关如何生成和使用工具的更多信息,请参阅 HBase HBCK2

下表列出了 Amazon EMR 5.x 系列的最新发行版附带的 HBase 版本,以及 Amazon EMR 随 HBase 一起安装的组件。

有关此发行版中随 HBase 安装的组件版本,请参阅 Release 6.14.0 Component Versions

emr-5.36.1 的 HBase 版本信息
Amazon EMR 发行版标签 HBase 版本 随 HBase 安装的组件

emr-5.36.1

HBase 1.4.13

emrfs, emr-ddb, emr-goodies, emr-kinesis, emr-s3-dist-cp, hadoop-client, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-httpfs-server, hadoop-kms-server, hadoop-mapred, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, hbase-hmaster, hbase-client, hbase-region-server, hbase-rest-server, hbase-thrift-server, zookeeper-client, zookeeper-server