Amazon Outposts 上的 EMR 集群 - Amazon EMR
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 Amazon Web Services 服务入门

Amazon Outposts 上的 EMR 集群

从 Amazon EMR 版本 5.28.0 开始,您可以在 Amazon Outposts 上创建和运行 EMR 集群。Amazon Outposts 启用本地设施中的本地Amazon服务、基础设施和操作模型。在 Amazon Outposts 环境中,您可以使用与Amazon云中相同的 Amazon API、工具和基础设施。Amazon Outposts 上的 Amazon EMR 非常适合需要靠近本地数据和应用程序运行的低延迟工作负载。有关 Amazon Outposts 的更多信息,请参阅 Amazon Outposts 用户指南

Prerequisites

以下是使用 Amazon Outposts 上的 Amazon EMR 的先决条件:

  • 您必须在本地数据中心中安装并配置了 Amazon Outposts。

  • 您的 Outpost 环境和Amazon区域之间必须具有可靠的网络连接。

  • 您必须具有足够的容量来支持 Outpost 中提供的 EMR 支持的实例类型。

Limitations

以下是 Amazon Outposts 上使用 Amazon EMR 的限制:

  • 按需型实例是 Amazon EC2 实例唯一支持的选项。Spot 实例不适用于 Amazon Outposts 上的 Amazon EMR。

  • 如果您需要额外的 Amazon EBS 存储卷,则仅支持通用型 SSD(GP2)。

  • Amazon Outposts 上的 Amazon EMR 仅支持以下实例类型:

    实例类 实例类型
    通用型 m5.xlarge | m5.2xlarge | m5.4xlarge | m5.12xlarge | m5.24xlarge | m5d.xlarge | m5d.2xlarge | m5d.4xlarge | m5d.12xlarge | m5d.24xlarge
    计算优化

    c5.xlarge | c5.2xlarge | c5.4xlarge | c5.9xlarge | c5.18xlarge | c5d.xlarge | c5d.2xlarge | c5d.4xlarge| c5d.9xlarge | c5d.18xlarge

    内存优化

    r5.xlarge | r5.2xlarge | r5.4xlarge | r5.12xlarge | r5d.xlarge | r5d.2xlarge | r5d.4xlarge | r5d.12xlarge | r5d.24xlarge

    存储优化

    i3en.xlarge | i3en.2xlarge | i3en.3xlarge | i3en.6xlarge | i3en.12xlarge | i3en.24xlarge

网络连接注意事项

  • 如果 Outpost 与其Amazon区域之间的网络连接断开,集群将继续运行。但是,在恢复连接之前,您无法创建新集群或对现有集群执行新操作。如果实例出现故障,则不会自动替换该实例。此外,向正在运行的集群添加步骤、检查步骤执行状态以及发送 CloudWatch 指标和事件等操作将会延迟。

  • 建议在您的 Outpost 与Amazon区域之间提供可靠且高度可用的网络连接。如果您的 Outpost 与其Amazon区域之间的网络连接断开了若干小时以上,则启用了终止保护的集群将继续运行,并且已禁用终止保护的集群可能会终止。

  • 如果网络连接会因日常维护而受到影响,我们建议主动启用终止保护。一般而言,连接中断意味着无法访问 Outpost 或客户网络本地的任何外部依赖关系。如果具有多个主节点 (master node) 的 EMR 集群使用区域内实例,则包括 Amazon S3、与 EMRFS 一致性视图一起使用的 DynamoDB 以及 Amazon RDS。

在 Amazon Outposts 上创建 Amazon EMR 集群

在 Amazon Outposts 上创建 Amazon EMR 集群类似于在Amazon云上创建 Amazon EMR 集群。在 Amazon Outposts 上创建 Amazon EMR 集群时,您必须指定与您的 Outpost 关联的 Amazon EC2 子网。

Amazon VPC 可以跨Amazon区域中的所有可用区。Amazon Outposts 是可用区的扩展,您可以将账户中的 Amazon VPC 扩展为以跨多个可用区和关联的 Outpost 位置。在配置 Outpost 时,您将一个子网与它相关联,以将区域 VPC 环境扩展到本地设施。Outpost 实例和相关服务显示为区域 VPC 的一部分,类似于具有关联子网的可用区。有关更多信息,请参阅 Amazon Outposts 用户指南

控制台

要在 Amazon Outposts 上使用Amazon Web Services Management Console创建新 Amazon EMR 集群,请指定与您的 Outpost 关联的 Amazon EC2 子网。

  1. 打开 Amazon EMR 控制台

  2. 选择创建集群

  3. 选择 Go to advanced options (转到高级选项)

  4. Software Configuration (软件配置) 下,对于 Release (版本),选择 5.28.0 或更高版本。

  5. Hardware Configuration (硬件配置) 下,对于 EC2 Subnet (EC2 子网),选请择具有以下格式的 Outpost ID 的 EC2 子网:op-123456789。

  6. 为统一的实例组或实例机群选择实例类型或添加 Amazon EBS 存储卷。Amazon Outposts 上的 Amazon EMR 支持有限的 Amazon EBS 卷和实例类型。

Amazon CLI

要在 Amazon Outposts 上使用 Amazon CLI 创建新 Amazon EMR 集群,请指定与您的 Outpost 关联的 EC2 子网。

以下示例在 Outpost 上创建了一个 Amazon EMR 集群。将 subnet-22XXXX01 替换为与您的 Outpost 关联的 EC2 子网。

aws emr create-cluster \ --name "Outpost cluster" \ --release-label emr-5.33.0 \ --applications Name=Spark \ --ec2-attributes KeyName=myKey SubnetId=subnet-22XXXX01 \ --instance-type m5.xlarge --instance-count 3 --use-default-roles