Amazon EMR
Amazon EMR 版本指南
AWS 服务或AWS文档中描述的功能,可能因地区/位置而异。请点击 Amazon AWS 入门,可查看中国地区的具体差异

Apache HBase

本文档适用于 Amazon EMR 的 版本 4.x 和 5.x。对于有关 Amazon EMR AMI 版本 2.x 和 3.x 的信息,请参阅 Amazon EMR 开发人员指南 (PDF)

HBase 是一种开源、非关系型分布式数据库,它作为 Apache 软件基金会的 Hadoop 项目的一部分开发。HBase 在 Hadoop 分布式文件系统 (HDFS) 上运行,为 Hadoop 生态系统提供非关系型数据库功能。HBase 可与 Hadoop 无缝配合,从而共享其文件系统并用作 MapReduce 框架和执行引擎的直接输入和输出。HBase 还可与 Apache Hive 集成 (对 HBase 表启用类似 SQL 的查询) 、与基于 Hive 的表结合以及支持 Java 数据库连接 (JDBC)。有关 HBase 的更多信息,请参阅 Apache 网站上的 Apache HBaseHBase 文档有关如何将 HBase 用于 Hive 的示例,请参阅名为在 Amazon EMR 上使用 Apache HBase 和 Apache Hive 来结合使用 NoSQL 和大规模并行分析的 AWS 大数据博客文章。

Amazon EMR 提供与 Amazon Simple Storage Service(Amazon S3) 集成的选项以实现数据持久性和灾难恢复。

  • HBase on Amazon S3 - 对于 Amazon EMR 5.2.0 版和更高版本,您可使用 HBase on Amazon S3 将集群的 HBase 根目录和元数据直接存储到 Amazon S3。随后,您可以启动新集群,将其指向 Amazon S3 中的根目录位置。一次仅一个集群可使用 Amazon S3 中的 HBase 位置,只读副本集群例外。有关更多信息,请参阅 HBase on Amazon S3 (Amazon S3 存储模式)

  • HBase 只读副本 - 具有 HBase on Amazon S3 的 Amazon EMR 5.7.0 版和更高版本支持只读副本集群。在只读操作中,只读副本集群提供对主集群的存储文件和元数据的只读访问权限。有关更多信息,请参阅 使用只读副本集群

  • HBase 快照 - 作为 HBase on Amazon S3 的替代方案,对于 EMR 4.0 版和更高版本,您可为直接传输至 Amazon S3 的 HBase 数据创建快照,然后使用快照恢复数据。有关更多信息,请参阅 使用 HBase 快照

适用于此版本 Amazon EMR 的 HBase 版本信息

应用程序 Amazon EMR 发行版标签 随此应用程序安装的组件

HBase 1.3.0

emr-5.4.0

emrfs、emr-ddb、emr-goodies、emr-kinesis、emr-s3-dist-cp、hadoop-client、hadoop-hdfs-datanode、hadoop-hdfs-library、hadoop-hdfs-namenode、hadoop-httpfs-server、hadoop-kms-server、hadoop-mapred、hadoop-yarn-nodemanager、hadoop-yarn-resourcemanager、hbase-hmaster、hbase-client、hbase-region-server、hbase-rest-server、hbase-thrift-server、zookeeper-client、zookeeper-server

主题