AWS Outposts 上的 EMR 集群 - Amazon EMR
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 AWS 服务入门

AWS Outposts 上的 EMR 集群

从 Amazon EMR 版本 5.28.0 开始,您可以在 AWS Outposts 上创建和运行 EMR 集群。AWS Outposts 启用本地设施中的本地 AWS 服务、基础设施和操作模型。在 AWS Outposts 环境中,您可以使用与 AWS 云中所用相同的 AWS API、工具和基础设施。AWS Outposts 上的 Amazon EMR 非常适合需要靠近本地数据和应用程序运行的低延迟工作负载。有关 AWS Outposts 的更多信息,请参阅 AWS Outposts 用户指南

先决条件

以下是使用 AWS Outposts 上的 Amazon EMR 的先决条件:

  • 您必须在本地数据中心中安装并配置了 AWS Outposts。

  • 您的 Outpost 环境和 AWS 区域之间必须具有可靠的网络连接。

  • 您必须具有足够的容量来支持 Outpost 中可用的 EMR 支持的实例类型。

限制

以下是使用 AWS Outposts 上的 Amazon EMR 的限制:

  • 按需实例是 Amazon EC2 实例唯一支持的选项。Spot 实例不适用于 AWS Outposts 上的 Amazon EMR。

  • 如果您需要额外的 Amazon EBS 存储卷,则仅支持通用 SSD (GP2)。

  • AWS Outposts 上的 Amazon EMR 仅支持以下实例类型:

    实例类 实例类型
    通用型 m5.xlarge | m5.2xlarge | m5.4xlarge | m5.12xlarge | m5.24xlarge | m5d.xlarge | m5d.2xlarge | m5d.4xlarge | m5d.12xlarge | m5d.24xlarge
    计算优化

    c5.xlarge | c5.2xlarge | c5.4xlarge | c5.9xlarge | c5.18xlarge | c5d.xlarge | c5d.2xlarge | c5d.4xlarge| c5d.9xlarge | c5d.18xlarge

    内存优化

    r5.xlarge | r5.2xlarge | r5.4xlarge | r5.12xlarge | r5d.xlarge | r5d.2xlarge | r5d.4xlarge | r5d.12xlarge | r5d.24xlarge

    存储优化

    i3en.xlarge | i3en.2xlarge | i3en.3xlarge | i3en.6xlarge | i3en.12xlarge | i3en.24xlarge

网络连接注意事项

  • 如果您的 Outpost 与其 AWS 区域之间的网络连接丢失,您的集群将继续运行。但是,在恢复连接之前,您无法创建新集群或对现有集群执行新操作。如果实例出现故障,则不会自动替换该实例。此外,一些操作(例如向正在运行的集群添加步骤、检查步骤执行状态以及发送 CloudWatch 指标和事件)将会延迟。

  • 建议在您的 Outpost 与 AWS 区域之间提供可靠且高度可用的网络连接。如果您的 Outpost 与其 AWS 区域之间的网络连接丢失了若干小时以上,则启用了终止保护的集群将继续运行,并且已禁用终止保护的集群可能会终止。

  • 如果网络连接会因日常维护而受到影响,我们建议主动启用终止保护。一般而言,连接中断意味着无法访问 Outpost 或客户网络本地的任何外部依赖关系。如果区域内实例用于 具有多个主节点的 EMR 集群,则这包括 Amazon S3、与 EMRFS 一致性视图一起使用的 DynamoDB 以及 Amazon RDS。

在 AWS Outposts 上创建 Amazon EMR 集群

在 AWS Outposts 上创建 Amazon EMR 集群类似于在 AWS 云中创建 Amazon EMR 集群。在 AWS Outposts 上创建 Amazon EMR 集群时,您必须指定与您的 Outpost 关联的 Amazon EC2 子网。

Amazon VPC 可以跨越 AWS 区域中的所有可用区。AWS Outposts 是可用区的扩展,您可以将账户中的 Amazon VPC 扩展为以跨越多个可用区和关联的 Outpost 位置。配置您的 Outpost 时,您将子网与其关联,以便将您的区域 VPC 环境扩展到您的本地设施。Outpost 实例和相关服务显示为您的区域 VPC 的一部分,类似于带有关联子网的可用区。有关更多信息,请参阅 AWS Outposts 用户指南

控制台

要在 AWS Outposts 上使用 AWS 管理控制台创建新 Amazon EMR 集群,请指定与您的 Outpost 关联的 Amazon EC2 子网。

  1. 打开 Amazon EMR 控制台

  2. 选择 Create cluster

  3. 选择 Go to advanced options (转到高级选项)

  4. Software Configuration (软件配置) 下,对于 Release (版本),选择 5.28.0 或更高版本。

  5. Hardware Configuration (硬件配置) 下,对于 EC2 Subnet (EC2 子网),选择具有以下格式的 Outpost ID 的 EC2 子网:op-123456789。

  6. 为统一的实例组或实例队列选择实例类型或添加 Amazon EBS 存储卷。AWS Outposts 上的 Amazon EMR 支持有限的 Amazon EBS 卷和实例类型。

AWS CLI

要在 AWS Outposts 上使用 AWS CLI创建新 Amazon EMR 集群,请指定与您的 Outpost 关联的 EC2 子网。

以下示例在 Outpost 上创建一个 Amazon EMR 集群。将 subnet-22XXXX01 替换为与您的 Outpost 关联的 EC2 子网。

aws emr create-cluster \ --name "Outpost cluster" \ --release-label emr-5.30.0 \ --applications Name=Spark \ --ec2-attributes KeyName=myKey SubnetId=subnet-22XXXX01 \ --instance-type m5.xlarge --instance-count 3 --use-default-roles