Amazon Outposts 上的 EMR 集群 - Amazon EMR
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

Amazon Outposts 上的 EMR 集群

从 Amazon EMR 版本 5.28.0 开始,您可以在 Amazon Outposts 上创建和运行 EMR 集群。Amazon Outposts 启用本地设施中的本地Amazon服务、基础设施和操作模型。在 Amazon Outposts 环境中,您可以使用与Amazon云中相同的 Amazon API、工具和基础设施。Amazon Outposts 上的 Amazon EMR 是低延迟工作负载的理想选择,这些工作负载需要在靠近本地部署数据和应用程序的地方运行。有关 Amazon Outposts 的更多信息,请参阅 Amazon Outposts 用户指南

先决条件

以下是使用 Amazon Outposts 上的 Amazon EMR 的先决条件:

  • 您必须在本地数据中心中安装并配置了 Amazon Outposts。

  • 您的 Outpost 环境和Amazon区域之间必须具有可靠的网络连接。

  • 您必须具有足够的容量来支持 Outpost 中提供的 EMR 支持的实例类型。

限制

以下是 Amazon Outposts 上使用 Amazon EMR 的限制:

  • 按需实例是 Amazon EC2 实例唯一支持的选项。Spot 实例不适用于 Amazon Outposts 上的 Amazon EMR。

  • 如果您需要额外的 Amazon EBS 存储卷,则仅支持通用型 SSD(GP2)。

  • 将对象存储在您指定的 Amazon Web Services 区域中的 S3 存储桶,是 Amazon EMR on Outposts 唯一支持的 S3 选项。对于 Amazon EMR on Amazon Outposts,S3 on Outposts 不受支持。

  • Amazon Outposts 上的 Amazon EMR 仅支持以下实例类型:

    实例类 实例类型
    通用型 m5.xlarge | m5.2xlarge | m5.4xlarge | m5.12xlarge | m5.24xlarge | m5d.xlarge | m5d.2xlarge | m5d.4xlarge | m5d.12xlarge | m5d.24xlarge
    计算优化

    c5.xlarge | c5.2xlarge | c5.4xlarge | c5.18xlarge | c5d.xlarge | c5d.2xlarge | c5d.4xlarge | c5d.18xlarge

    内存优化

    r5.xlarge | r5.2xlarge | r5.4xlarge | r5.12xlarge | r5d.xlarge | r5d.2xlarge | r5d.4xlarge | r5d.12xlarge | r5d.24xlarge

    存储优化

    i3en.xlarge | i3en.2xlarge | i3en.3xlarge | i3en.6xlarge | i3en.12xlarge | i3en.24xlarge

网络连接注意事项

  • 如果 Outpost 与其Amazon区域之间的网络连接断开,集群将继续运行。但是,在恢复连接之前,您无法创建新集群或对现有集群执行新操作。如果实例出现故障,则不会自动替换该实例。此外,向正在运行的集群添加步骤、检查步骤执行状态以及发送 CloudWatch 指标和事件等操作将会延迟。

  • 建议在您的 Outpost 与Amazon区域之间提供可靠且高度可用的网络连接。如果您的 Outpost 与其Amazon区域之间的网络连接断开了若干小时以上,则启用了终止保护的集群将继续运行,并且已禁用终止保护的集群可能会终止。

  • 如果网络连接会因日常维护而受到影响,我们建议主动启用终止保护。一般而言,连接中断意味着无法访问 Outpost 或客户网络本地的任何外部依赖关系。如果具有多个主节点的 Amazon EMR 集群使用区域内实例,则包括 Amazon S3、与 EMRFS 一致性视图结合使用的 DynamoDB 以及 Amazon RDS。

在 Amazon Outposts 上创建 Amazon EMR 集群

在 Amazon Outposts 上创建 Amazon EMR 集群与在 Amazon 云上创建 Amazon EMR 集群相类似。在 Amazon Outposts 上创建 Amazon EMR 集群时,您必须指定与您的 Outpost 关联的 Amazon EC2 子网。

Amazon VPC 可以跨Amazon区域中的所有可用区。Amazon Outposts 是可用区的扩展,您可以将账户中的 Amazon VPC 扩展为以跨多个可用区和关联的 Outpost 位置。在配置 Outpost 时,您将一个子网与它相关联,以将区域 VPC 环境扩展到本地设施。Outpost 实例和相关服务显示为区域 VPC 的一部分,类似于具有关联子网的可用区。有关更多信息,请参阅 Amazon Outposts 用户指南

控制台

要在 Amazon Outposts 上使用Amazon Web Services Management Console创建新 Amazon EMR 集群,请指定与您的 Outpost 关联的 Amazon EC2 子网。

注意

我们重新设计了 Amazon EMR 控制台,以便其易于使用。请参阅 控制台中的新增功能,以了解有关新旧控制台体验差异的信息。

New console
使用新控制台在 Amazon Outposts 上创建集群
  1. 登录 Amazon Web Services Management Console 并打开 Amazon EMR 控制台,网址为 https://console.aws.amazon.com/emr

  2. 在左侧导航窗格中的 EMR on EC2 下,选择 Clusters(集群),然后选择 Create cluster(创建集群)。

  3. Cluster configuration(集群配置)下,选择 Instance groups(实例组)或 Instance fleets(实例集)。然后,从 Choose EC2 instance type(选择 EC2 实例类型)下拉菜单中选择实例类型,或依次选择 Actions(操作)、Add EBS volumes(添加 EBS 卷)。Amazon Outposts 上的 Amazon EMR 支持有限的 Amazon EBS 卷和实例类型。

  4. Networking(联网)下,选择一个 EC2 子网,其 Outpost ID 格式如下:op-123456789。

  5. 选择适用于集群的任何其他选项。

  6. 要启动集群,选择 Create cluster(创建集群)。

Old console
使用旧控制台在 Amazon Outposts 上创建集群
  1. 导航到 Amazon EMR 新控制台,然后从侧面导航栏中选择切换到旧控制台。有关切换到旧控制台后预期情况的更多信息,请参阅 Using the old console

  2. 选择创建集群

  3. 选择 Go to advanced options (转到高级选项)

  4. Software Configuration (软件配置) 下,对于 Release (版本),选择 5.28.0 或更高版本。

  5. Hardware Configuration (硬件配置) 下,对于 EC2 Subnet (EC2 子网),选请择具有以下格式的 Outpost ID 的 EC2 子网:op-123456789。

  6. 为统一的实例组或实例集选择实例类型或添加 Amazon EBS 存储卷。Amazon Outposts 上的 Amazon EMR 支持有限的 Amazon EBS 卷和实例类型。

CLI
使用 Amazon CLI 在 Amazon Outposts 上创建集群
  • 要在 Amazon Outposts 上使用 Amazon CLI 创建新的 Amazon EMR 集群,请指定与您的 Outpost 关联的 EC2 子网,如下例所示。将 subnet-22XXXX01 替换为您自己的 EC2 子网 ID。

    aws emr create-cluster \ --name "Outpost cluster" \ --release-label emr-5.36.1 \ --applications Name=Spark \ --ec2-attributes KeyName=myKey SubnetId=subnet-22XXXX01 \ --instance-type m5.xlarge --instance-count 3 --use-default-roles