Amazon DynamoDB
开发人员指南 (API Version 2012-08-10)
AWS 服务或AWS文档中描述的功能,可能因地区/位置而异。点 击 Getting Started with Amazon AWS to see specific differences applicable to the China (Beijing) Region.

使用 Amazon EMR 上的 Apache Hive 处理 DynamoDB 数据

Amazon DynamoDB 可与在 Amazon EMR 上运行的数据仓库应用程序 Apache Hive 集成。Hive 可以在 DynamoDB 表中读取和写入数据,让您能够:

  • 利用类似 SQL 的语言 (HiveQL) 查询实时 DynamoDB 数据。

  • 将数据从 DynamoDB 表复制到 Amazon S3 存储桶,反之亦然。

  • 将数据从 DynamoDB 表复制到 Hadoop 分布式文件系统 (HDFS),反之亦然。

  • 对 DynamoDB 表执行联接操作。

概述

Amazon EMR 是一种服务,可以轻松快速、经济高效地处理大量数据。要使用 Amazon EMR,您可启动运行 Hadoop 开源框架的 Amazon EC2 实例的托管集群。Hadoop 是一种实施 MapReduce 算法的分布式应用程序,在这种算法中,一个任务会映射到集群中的多个节点。每个节点处理指定的工作,与其他节点并行运行。最后,单个节点上的输出减少,得出最终结果。

您可以选择启动您的 Amazon EMR 集群,使其成为持久集群或临时集群:

  • 持久集群会一直运行,直至您将其关闭。持久集群适合用于数据分析、数据仓库或任何其他交互式用途。

  • 临时集群的运行时间足以让您处理一个作业流程,然后集群将会自动关闭。临时集群适合用于周期性的处理任务,如运行脚本。

有关 Amazon EMR 架构和管理的信息,请参阅 Amazon EMR 管理指南

启动 Amazon EMR 集群时,您可指定 Amazon EC2 实例的初始数量和类型。您还可以指定您希望在该集群上运行的其他分布式应用程序 (Hadoop 本身除外)。这些应用程序包括 Hue、Mahout、Pig、Spark 等等。

有关适用于 Amazon EMR 的应用程序的信息,请参阅 Amazon EMR 版本指南

根据集群配置,您可能有一个或多个如下节点类型:

  • 主节点 – 管理集群,协调将 MapReduce 可执行文件和原始数据子集分配到核心实例组和任务实例组。此外,它还会跟踪每个任务的执行状态,监控实例组的运行状况。一个集群中只有一个主节点。

  • 核心节点 - 使用 Hadoop 分布式文件系统 (HDFS) 运行 MapReduce 任务和存储数据。

  • 任务节点 (可选) - 运行 MapReduce 任务。

本页内容: