Amazon EMR
管理指南
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 Amazon AWS 入门

计划和配置联网

提供了可为集群选择的两个网络平台选项:EC2-ClassicEC2-VPC。在 EC2-Classic 中,您的实例会运行在一个可与其他客户共享的扁平化网络中。EC2-Classic 仅适用于某些区域内的特定账户。有关更多信息,请参阅 Amazon EC2 User Guide for Linux Instances 中的 Amazon EC2 和 Amazon VPC。在 EC2-VPC 中,您的集群使用 Amazon Virtual Private Cloud (Amazon VPC),并且 EC2 实例在您的 AWS 账户中逻辑隔离的 VPC 中运行。Amazon VPC 可让您预配置 Virtual Private Cloud (VPC),这是 AWS 内的隔离区域,您可以在其中配置虚拟网络,从而控制各个方面,如私有 IP 地址范围、子网、路由表和网络网关。

VPC 提供以下功能:

  • 处理敏感数据

    在 VPC 中启动集群类似于使用额外的工具 (如路由表和网络 ACL) 在私有网络中启动集群,以便定义可以访问网络的人员。如果您正在处理集群中的敏感数据,您可能希望获得在 VPC 中启动集群所提供的额外访问控制。此外,您还可以选择在私有子网中启动您的资源,其中,所有这些资源都没有直接的 Internet 连接。

  • 访问内部网络上的资源

    如果您的数据源位于私有网络中,可能无法或者不愿将这些数据上传到 AWS,以便导入 Amazon EMR,这要么是因为要传输的数据量,要么是因为数据的敏感性质。相反,您可以在 VPC 中启动集群,并通过 VPN 连接将您的数据中心连接到 VPC,从而允许集群访问内部网络上的资源。例如,如果数据中心内有 Oracle 数据库,则在通过 VPN 连接到该网络的 VPC 中启动集群,可使集群能够访问 Oracle 数据库。

公有子网和私有子网

您可以同时在公有 VPC 子网和私有 VPC 子网中启动 EMR 集群。这意味着,您不需要 Internet 连接即可运行 EMR 集群;但是,您可能需要配置网络地址转换 (NAT) 和 VPN 网关来访问位于 VPC 外部的服务或资源,例如,在公司内部网或公有 AWS 服务终端节点 (如 AWS Key Management Service) 中。

重要

Amazon EMR 仅支持在 4.2 版或更高版本中的私有子网中启动集群。

有关 Amazon VPC 的详细信息,请参阅 Amazon VPC User Guide

用于了解 VPC 的更多资源

要了解有关 VPC 和子网的更多信息,请参阅以下主题。