Amazon EMR
管理指南
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 AWS 服务入门

设置 VPC 以托管集群

您必须先创建 VPC 和子网,然后才能在 VPC 中启动集群。对于公有子网,您必须创建一个 Internet 网关并将它连接到子网。以下说明介绍如何创建能够托管 Amazon EMR 集群的 VPC。

创建子网以运行 Amazon EMR 集群

  1. 打开 Amazon VPC 控制台 https://console.amazonaws.cn/vpc/

  2. 在导航栏中,选择要在其中运行集群的区域。

  3. 选择 Start VPC Wizard

  4. 通过选择以下选项之一选择 VPC 配置:

    • VPC with a Single Public Subnet (带单个公有子网的 VPC) – 如果集群中使用的数据可在 Internet 上(例如,在 Amazon S3 或 Amazon RDS 中)使用,则选择此选项。

    • VPC with Public and Private subnets and Hardware VPN Access (带有公有子网和私有子网以及硬件 VPN 访问的 VPC) – 如果使用私有子网或应用程序的数据存储在您自己的网络(如 Oracle 数据库)中,则选择此选项。利用此选项,您还可以在私有子网所在的 VPC 中包含公有子网。

  5. 确认 VPC 设置。该图显示单个公有和私有与公有场景。

    
							使用公有子网配置 VPC 设置
    
							使用公有子网和私有子网配置 VPC 设置
    • 要使用 Amazon EMR,带有公有子网的 VPC 必须同时具有 Internet 网关和子网。

      对于私有子网中的 VPC,所有 EC2 实例都必须至少有一个通过弹性网络接口到 Amazon EMR 的路由。在控制台中,将自动为您进行配置。

    • VPC 使用私有 IP 地址空间可以确保正确解析 DNS 主机名;否则,可能会出现 Amazon EMR 集群故障。该地址空间包括以下 IP 地址范围:

      • 10.0.0.0 - 10.255.255.255

      • 172.16.0.0 - 172.31.255.255

      • 192.168.0.0 - 192.168.255.255

    • 选择 Use a NAT instance instead (换用一个 NAT 实例),然后根据需要选择选项。

    • (可选)选择 Add endpoints for S3 to your subnets (向子网添加 S3 的终端节点)

    • 验证是否选中了 Enable DNS hostnames (启用 DNS 主机名)。创建 VPC 时,可以选择启用 DNS 主机名。要更改 DNS 主机名的设置,请在 VPC 列表中选择您的 VPC,然后在详细信息窗格中选择 Edit (编辑)。要创建不包含域名的 DNS 条目,可为 DHCP Options Set (DHCP 选项集) 创建一个值,然后将该值与您的 VPC 关联。创建了 DNS 选项集之后,您无法使用控制台编辑域名。

      有关更多信息,请参阅在您的 VPC 中使用 DNS

    • 这是针对 Hadoop 和相关应用程序的最佳做法,可确保解析节点的完全限定域名 (FQDN)。要确保正确解析 DNS,请配置 VPC,使其包含将参数设置为以下值的 DHCP 选项集:

      • domain-name = ec2.internal

        如果您的区域是美国东部(弗吉尼亚北部),请使用 ec2.internal。对于其他区域,请使用 region-name.compute.internal。例如,在 us-west-2 中,请使用 us-west-2.compute.internal。对于 AWS GovCloud (US-West) 区域,请使用 us-gov-west-1.compute.internal

      • domain-name-servers = AmazonProvidedDNS

      有关更多信息,请参阅 Amazon VPC 用户指南 中的 DHCP 选项集

  6. 选择 Create VPC。如果您正在创建 NAT 实例,则要完成此操作可能需要几分钟时间。

创建 VPC 之后,转到 Subnets (子网) 页面并记下您 VPC 的一个子网的标识符。在该 VPC 中启动 EMR 集群时,您将使用此信息。