Amazon EMR
管理指南
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 AWS 服务入门

选择 AWS 区域

Amazon Web Services 在全球范围内的数据中心的服务器上运行。数据中心按地理区域进行管理。启动 Amazon EMR 集群时,必须指定区域。您可以选择一个区域,以便减少延迟、尽可能降低成本或满足法规要求。有关 Amazon EMR 支持的区域和终端节点的列表,请参阅 Amazon Web Services 一般参考中的区域和终端节点

为了获得最佳性能,您应在与您的数据相同的区域启动集群。例如,如果存储您的输入数据的 Amazon S3 存储桶位于 美国西部(俄勒冈) 区域,那么您应在 美国西部(俄勒冈) 区域启动集群,以避免缴纳跨区域数据传输费。如果您使用 Amazon S3 存储桶接收集群输出,那么也应该在 美国西部(俄勒冈) 区域创建该集群输出。

如果您打算让某个 Amazon EC2 密钥对与集群相关联 (这是使用 SSH 登录主节点所必需的操作)。那么密钥对必须在与集群相同的区域创建。与之类似,Amazon EMR 创建的用以管理集群的安全组也应在与集群相同的区域创建。

如果您是在 2017 年 5 月 17 日或之后注册的 AWS 账户,当您从 AWS 管理控制台访问资源时,默认区域为 美国东部(俄亥俄州) (us-east-2);对于之前注册的账户,默认区域为 美国西部(俄勒冈) (us-west-2) 或 美国东部(弗吉尼亚北部) (us-east-1)。有关更多信息,请参阅区域和终端节点

有些 AWS 功能仅在部分区域可用。例如,集群计算实例仅在 美国东部(弗吉尼亚北部) 区域可用,且 亚太区域(悉尼) 区域仅支持 Hadoop 1.0.3 及更高版本。当您选择一个区域时,请核实该区域支持您想要使用的功能。

为了获得最佳性能,对于所有将与集群一同使用的 AWS 资源,请使用相同的区域。下表列出了区域名称和服务的映射关系。有关 Amazon EMR 区域的列表,请参阅 Amazon Web Services 一般参考中的 AWS 区域和终端节点

使用控制台选择区域

您的默认区域会自动显示。

使用控制台更改区域

  • 要切换区域,可选择导航栏上账户信息右侧的区域列表。

使用 AWS CLI 指定区域

您可在 AWS CLI 中使用 aws configure命令或 AWS_DEFAULT_REGION 环境变量指定默认区域。有关更多信息,请参阅 AWS Command Line Interface 用户指南中的配置 AWS 区域

选择一个使用开发工具包或 API 的区域

要使用软件开发工具包选择区域,请将应用程序配置为使用该区域的终端节点。如果您正在使用 AWS 开发工具包创建客户端应用程序,那么您可以通过调用 setEndpoint 变更客户终端节点,如下例所示:

client.setEndpoint("elasticmapreduce.us-west-2.amazonaws.com.cn");

在您的应用程序通过设置终端节点指定一个地区后,您可以为集群的 EC2 实例设置可用区。可用区是专用于隔离其他可用区内故障的区分位置,可向相同区域中的其他可用区提供低延迟的便宜网络连接。一个区域会包含一个或多个可用区。为了优化性能和降低延迟,所有资源应与使用它们的集群位于同一可用区。