Amazon EMR
管理指南
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 AWS 服务入门

步骤 1:设置示例集群的先决条件

在开始设置 Amazon EMR 集群之前,请确保您已完成本主题中的先决条件。

注册 AWS

如果您没有 AWS 账户,请通过以下步骤创建一个账户。

注册 AWS

  1. 打开 http://www.amazonaws.cn/,然后选择 Create an AWS Account

  2. 按照屏幕上的说明进行操作。

创建 Amazon S3 存储桶

在本教程中,指定存储 Hive 查询的输出数据的 Amazon S3 存储桶和文件夹。本教程使用默认日志位置,但如果您喜欢,也可以指定自定义位置。由于 Hadoop 要求,您用于 Amazon EMR 的存储桶和文件夹名称具有以下限制:

  • 它们只能包含小写字母、数字、句点 (.) 和连字符 (-)。

  • 它们不能以数字结尾。

如果您有权访问满足这些要求的文件夹,则可在本教程中使用它。输出文件夹应为空。要记住的另一个要求是,存储桶名称在所有 AWS 账户 中必须是唯一的。

有关创建存储桶的更多信息,请参阅 Amazon Simple Storage Service 入门指南 中的创建存储桶。创建存储桶之后,请从列表中选择该存储桶,然后选择 Create folder (创建文件夹),将 New folder (新建文件夹) 替换为满足要求的名称,然后选择 Save (保存)

本教程稍后使用的存储桶和文件夹名称为 s3://mybucket/MyHiveQueryResults

创建 Amazon EC2 密钥对

您必须拥有 Amazon Elastic Compute Cloud (Amazon EC2) 密钥对才能使用安全外壳 (SSH) 协议通过安全通道连接集群中的节点。如果您已有要使用的密钥对,则可跳过这一步。如果您没有密钥对,请根据您的操作系统执行以下过程之一。