EMR 集群已开启 Amazon Outposts - Amazon EMR
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

EMR 集群已开启 Amazon Outposts

从 Amazon EMR 5.28.0 开始,您可以在上创建和运行 EMR 集群。 Amazon Outposts Amazon Outposts 在本地设施中启用原生 Amazon 服务、基础设施和运营模式。在 Amazon Outposts 环境中,您可以使用与 Amazon 云端相同 Amazon 的 API、工具和基础架构。Amazon EMR on Amazon Outposts 非常适合需要在靠近本地数据和应用程序的地方运行的低延迟工作负载。有关的更多信息 Amazon Outposts,请参阅《Amazon Outposts 用户指南》

先决条件

以下是使用 Amazon Outposts上的 Amazon EMR 的先决条件:

  • 您必须已 Amazon Outposts 在本地数据中心安装和配置。

  • 您的 Outpost 环境和 Amazon 区域之间必须有可靠的网络连接。

  • 您必须有足够的容量来容纳您的 Outpost 中支持 Amazon EMR 的实例类型。

限制

以下是 Amazon Outposts上使用 Amazon EMR 的限制:

  • 按需实例是 Amazon EC2 实例唯一支持的选项。Spot 实例不适用于 Amazon Outposts上的 Amazon EMR。

  • 如果您需要额外的 Amazon EBS 存储卷,则仅支持通用型 SSD(GP2)。

  • 当您 Amazon Outposts 与 Amazon EMR 5.28 到 6.x 版本一起使用时,您只能使用在您指定的中存储对象的 S3 存储桶。 Amazon Web Services 区域 在 Amazon EMR 7.0.0 及更高版本中,文件系统客户端(前缀)也支持开 Amazon Outposts 启 Amazon EMR。S3A s3a://

  • Amazon Outposts上的 Amazon EMR 仅支持以下实例类型:

    实例类 实例类型
    通用型

    m5.xlarge | m5.2xlarge | m5.4xlarge | m5.12xlarge | m5.24xlarge | m5d.xlarge | m5d.2xlarge | m5d.4xlarge | m5d.12xlarge | m5d.24xlarge

    计算优化

    c5.xlarge | c5.2xlarge | c5.4xlarge | c5.18xlarge | c5d.xlarge | c5d.2xlarge | c5d.4xlarge | c5d.18xlarge

    内存优化

    r5.xlarge | r5.2xlarge | r5.4xlarge | r5.12xlarge | r5d.xlarge | r5d.2xlarge | r5d.4xlarge | r5d.12xlarge | r5d.24xlarge

    存储优化

    i3en.xlarge | i3en.2xlarge | i3en.3xlarge | i3en.6xlarge | i3en.12xlarge | i3en.24xlarge

网络连接注意事项

  • 如果您的 Outpost 与其 Amazon 区域之间的网络连接中断,您的集群将继续运行。但是,在恢复连接之前,您无法创建新集群或对现有集群执行新操作。如果实例出现故障,则不会自动替换该实例。此外,诸如向正在运行的集群添加步骤、检查步骤执行状态以及发送 CloudWatch 指标和事件之类的操作都将延迟。

  • 我们建议您在 Outpost 和该 Amazon 地区之间提供可靠且高度可用的网络连接。如果您的 Outpost 与其 Amazon 区域之间的网络连接中断超过几个小时,则已启用终止保护的集群将继续运行,已禁用终止保护的集群可能会被终止。

  • 如果网络连接会因日常维护而受到影响,我们建议主动启用终止保护。一般而言,连接中断意味着无法访问 Outpost 或客户网络本地的任何外部依赖关系。如果具有多个主节点的 Amazon EMR 集群使用区域内实例,则包括 Amazon S3、与 EMRFS 一致性视图结合使用的 DynamoDB 以及 Amazon RDS。

在上创建 Amazon EMR 集群 Amazon Outposts

在上创建 Amazon EMR 集群与在 Amazon Outposts 云端创建 Amazon EMR 集群类似。 Amazon 在上创建 Amazon EMR 集群时 Amazon Outposts,必须指定与您的 Outpost 关联的 Amazon EC2 子网。

Amazon VPC 可以跨越一个 Amazon 区域中的所有可用区。 Amazon Outposts 是可用区域的扩展,您可以扩展账户中的 Amazon VPC 以跨越多个可用区和相关的 Outpost 位置。在配置 Outpost 时,您将一个子网与它相关联,以将区域 VPC 环境扩展到本地设施。Outpost 实例和相关服务显示为区域 VPC 的一部分,类似于具有关联子网的可用区。有关更多信息,请参阅 Amazon Outposts 用户指南

控制台

要在上创建新的 Amazon EMR 集群 Amazon Web Services Management Console,请指定 Amazon Outposts 与您的 Outpost 关联的 Amazon EC2 子网。

注意

我们重新设计了 Amazon EMR 控制台,以便其易于使用。请参阅 亚马逊 EMR 控制台,以了解有关新旧控制台体验差异的信息。

New console
使用新控制台创建集群 Amazon Outposts
  1. 登录并打开亚马逊 EMR 控制台,网址为 https://console.aws.amazon.com/emr。 Amazon Web Services Management Console

  2. 在左侧导航窗格中的 EMR on EC2 下,选择 Clusters(集群),然后选择 Create cluster(创建集群)。

  3. Cluster configuration(集群配置)下,选择 Instance groups(实例组)或 Instance fleets(实例集)。然后,从 Choose EC2 instance type(选择 EC2 实例类型)下拉菜单中选择实例类型,或依次选择 Actions(操作)、Add EBS volumes(添加 EBS 卷)。上的 Amazon EMR Amazon Outposts 支持有限的亚马逊 EBS 卷和实例类型。

  4. Networking(联网)下,选择一个 EC2 子网,其 Outpost ID 格式如下:op-123456789。

  5. 选择适用于集群的任何其他选项。

  6. 要启动集群,选择 Create cluster(创建集群)。

Old console
使用旧控制台创建集群 Amazon Outposts
  1. 导航到 Amazon EMR 新控制台,然后从侧面导航栏中选择切换到旧控制台。有关切换到旧控制台后预期情况的更多信息,请参阅 Using the old console

  2. 选择创建集群

  3. 选择转到高级选项

  4. Software Configuration (软件配置) 下,对于 Release (版本),选择 5.28.0 或更高版本。

  5. 在 “硬件配置” 下,对于 EC2 子网,选择具有以下格式的前哨编号的 Amazon EC2 子网:op-123456789。

  6. 为统一的实例组或实例集选择实例类型或添加 Amazon EBS 存储卷。 Amazon Outposts上的 Amazon EMR 支持有限的 Amazon EBS 卷和实例类型。

CLI
要在开启 Amazon Outposts 的情况下创建集群 Amazon CLI
  • 要在上创建新的 Amazon EMR 集群 Amazon CLI,请指定 Amazon Outposts 与您的 Outpost 关联的 EC2 子网,如以下示例所示。将 subnet-22xxxx01 替换为你自己的亚马逊 EC2 子网 ID。

    aws emr create-cluster \ --name "Outpost cluster" \ --release-label emr-7.1.0 \ --applications Name=Spark \ --ec2-attributes KeyName=myKey SubnetId=subnet-22XXXX01 \ --instance-type m5.xlarge --instance-count 3 --use-default-roles