Amazon DynamoDB
开发人员指南 (API Version 2012-08-10)
AWS 服务或AWS文档中描述的功能,可能因地区/位置而异。请点击 Amazon AWS 入门,可查看中国地区的具体差异

使用 Amazon EMR 上的 Apache Hive 处理 DynamoDB 数据

Amazon DynamoDB 可与在 Amazon EMR 上运行的数据仓库应用程序 Apache Hive 集成。Hive 可以在 DynamoDB 表中读取和写入数据,让您能够:

  • 利用类似 SQL 的语言 (HiveQL) 查询实时 DynamoDB 数据。

  • 将数据从 DynamoDB 表复制到 Amazon S3 存储桶,反之亦然。

  • 将数据从 DynamoDB 表复制到 Hadoop 分布式文件系统 (HDFS),反之亦然。

  • 对 DynamoDB 表执行联接操作。

概述

Amazon EMR 是一种服务,可以轻松快速、经济高效地处理大量数据。要使用 Amazon EMR,您可启动运行 Hadoop 开源框架的 Amazon EC2 实例的托管集群。Hadoop 是一种实施 MapReduce 算法的分布式应用程序,在这种算法中,一个任务会映射到集群中的多个节点。每个节点处理指定的工作,与其他节点并行运行。最后,单个节点上的输出减少,得出最终结果。

您可以选择启动您的 Amazon EMR 集群,使其成为持久集群或临时集群:

  • 持久集群会一直运行,直至您将其关闭。持久集群适合用于数据分析、数据仓库或任何其他交互式用途。

  • 临时集群的运行时间足以让您处理一个作业流程,然后集群将会自动关闭。临时集群适合用于周期性的处理任务,如运行脚本。

有关 Amazon EMR 架构和管理的信息,请参阅 Amazon EMR 管理指南

启动 Amazon EMR 集群时,您可指定 Amazon EC2 实例的初始数量和类型。您还可以指定您希望在该集群上运行的其他分布式应用程序 (Hadoop 本身除外)。这些应用程序包括 Hue、Mahout、Pig、Spark 等等。

有关适用于 Amazon EMR 的应用程序的信息,请参阅 Amazon EMR 版本指南

根据集群配置,您可能有一个或多个如下节点类型:

  • 主节点 – 管理集群,协调将 MapReduce 可执行文件和原始数据子集分配到核心实例组和任务实例组。此外,它还会跟踪每个任务的执行状态,监控实例组的运行状况。一个集群中只有一个主节点。

  • 核心节点 - 使用 Hadoop 分布式文件系统 (HDFS) 运行 MapReduce 任务和存储数据。

  • 任务节点 (可选) - 运行 MapReduce 任务。

本页内容: