Amazon EMR
管理指南
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 Amazon AWS 入门

设置 VPC 以托管集群

您必须先创建 VPC 和子网,然后才能在 VPC 中启动集群。对于公有子网,您必须创建一个 Internet 网关并将它连接到子网。以下说明介绍如何创建能够托管 Amazon EMR 集群的 VPC。

创建子网以运行 Amazon EMR 集群

  1. Open the Amazon VPC console at https://console.amazonaws.cn/vpc/.

  2. 在导航栏中,选择要在其中运行集群的区域。

  3. 选择 Start VPC Wizard

  4. 通过选择以下选项之一选择 VPC 配置:

    • VPC with a Single Public Subnet — 如果集群中使用的数据可在 Internet 上 (例如,在 Amazon S3 或 Amazon RDS 中) 使用,则选择此选项。

    • VPC with Public and Private subnets and Hardware VPN Access — 如果要使用私有子网或如果您的应用程序的数据存储在您自己的网络 (如 Oracle 数据库) 中,则选择此选项。利用此选项,您还可以在私有子网所在的 VPC 中包含公有子网。

  5. 确认 VPC 设置。该图显示单个公有和私有与公有场景。

     使用公有子网配置 VPC 设置
     使用公有子网和私有子网配置 VPC 设置
    • 要使用 Amazon EMR,带有公有子网的 VPC 必须同时具有 Internet 网关和子网。

      对于私有子网中的 VPC,您的主节点和从属节点必须至少有一个通过弹性网络接口到 Amazon EMR 的路由。在控制台中,将自动为您进行配置。

    • VPC 使用私有 IP 地址空间可以确保正确解析 DNS 主机名;否则,可能会出现 Amazon EMR 集群故障。该地址空间包括以下 IP 地址范围:

      • 10.0.0.0 - 10.255.255.255

      • 172.16.0.0 - 172.31.255.255

      • 192.168.0.0 - 192.168.255.255

    • 选择 Use a NAT instance instead,然后根据需要选择选项。

    • (可选) 选择 Add endpoints for S3 to your subnets

    • 验证是否选中了 Enable DNS hostnames (启用 DNS 主机名)。创建 VPC 时,可以选择启用 DNS 主机名。要更改 DNS 主机名的设置,请在 VPC 列表中选择您的 VPC,然后在详细信息窗格中选择 Edit。要创建不包含域名的 DNS 条目,可为 DHCP Options Set 创建一个值,然后将该值与您的 VPC 关联。创建了 DNS 选项集之后,您无法使用控制台编辑域名。

      有关更多信息,请参阅在您的 VPC 中使用 DNS

    • 这是针对 Hadoop 和相关应用程序的最佳做法,可确保解析节点的完全限定域名 (FQDN)。要确保正确解析 DNS,请配置 VPC,使其包含将参数设置为以下值的 DHCP 选项集:

      • domain-name = ec2.internal

        如果您的区域是 ,请使用 ec2.internalUS East (N. Virginia)。对于其他区域,请使用 region-name.compute.internal。例如,在 us-west-2 中,请使用 us-west-2.compute.internal。对于 AWS GovCloud (US) 区域,请使用 us-gov-west-1.compute.internal

      • domain-name-servers = AmazonProvidedDNS

      有关更多信息,请参阅Amazon VPC User Guide中的 DHCP 选项集

  6. 选择 Create VPC。如果您正在创建 NAT 实例,则要完成此操作可能需要几分钟时间。

创建 VPC 之后,转到 Subnets (子网) 页面并记下您 VPC 的一个子网的标识符。在该 VPC 中启动 EMR 集群时,您将使用此信息。