Amazon 中的实例存储选项和行为 EMR - Amazon EMR
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

Amazon 中的实例存储选项和行为 EMR

概述

实例存储和 Amazon EBS 卷存储用于存储HDFS数据和缓冲区、缓存、暂存数据以及某些应用程序可能 “溢出” 到本地文件系统的其他临时内容。

亚马逊在亚马逊内部EBS的工作方式与EMR普通亚马逊EC2实例的运作方式不同。连接到 Amazon EMR 集群的 Amazon EBS 卷是临时性的:这些卷会在集群和实例终止时被删除(例如,缩减实例组时),因此您不应该指望数据会持续存在。尽管数据是短暂的,但HDFS可以根据集群中节点的数量和专业化来复制中的数据。当您添加 Amazon EBS 存储卷时,这些存储卷将作为额外卷进行装载。它们不是启动卷的一部分。 YARN配置为使用所有其他卷,但您负责将额外的卷分配为本地存储(例如本地日志文件)。

注意事项

在EMR集群中使用 Amazon EBS 时,请记住以下其他注意事项:

  • 您无法对亚马逊EBS卷进行快照,然后在亚马逊内部将其恢复EMR。要创建可重复使用的自定义配置,请使用自定义配置AMI(在 Amazon 5.7.0 及更高EMR版本中可用)。有关更多信息,请参阅 使用自定义AMI为 Amazon EMR 集群配置提供更大的灵活性

  • 只有使用自定义卷时,才支持加密的 Amazon EBS 根设备卷AMI。有关更多信息,请参阅 AMI使用加密的 Amazon EBS 根设备卷创建自定义卷

  • 如果您使用 Amazon 应用标签 EMRAPI,则这些操作将应用于EBS卷。

  • 每个实例最多有 25 个卷。

  • 核心节点上的 Amazon EBS 卷不能小于 5 GB。

  • Amazon EBS 对每个实例启动请求设定了 2,500 个EBS卷的固定限制。此限制也适用于EC2集群EMR上的 Amazon。我们建议您启动EBS卷总数在此限制范围内的集群,然后根据需要手动扩展集群或使用 Amazon EMR 托管扩展。要了解有关EBS音量限制的更多信息,请参阅服务配额

实例的默认 Amazon EBS 存储

对于EBS仅有存储空间的EC2实例,亚马逊会将 Amazon EBS gp2 或 gp3 存储卷EMR分配给实例。当您使用 Amazon EMR 版本 5.22.0 及更高版本创建集群时,默认的 Amazon EBS 存储量会随着实例的大小而增加。

我们会将任何增加的存储拆分到多个卷中。这可以提高IOPS性能,进而提高某些标准化工作负载的性能。如果您想使用不同的 Amazon EBS 实例存储配置,则可以在创建EMR集群或向现有集群添加节点时指定此配置。您可以使用 Amazon EBS gp2 或 gp3 卷作为根卷,并将 gp2 或 gp3 卷添加为其他卷。有关更多信息,请参阅 指定其他EBS存储卷

下表列出了 Amazon EBS gp2 存储卷的默认数量、大小和每种实例类型的总大小。有关 gp2 卷与 gp3 相比较的信息,请参阅 比较亚马逊的EBS卷类型 gp2 和 gp3

亚马逊 EMR 5. EBS 22.0 及更高版本的默认 Amazon gp2 存储卷和按实例类型划分的大小
实例大小 卷数 卷大小(GiB) 总大小(GiB)

*.large

1

32

32

*.xlarge

2

32

64

*.2xlarge

4

32

128

*.4xlarge

4

64

256

*.8xlarge

4

128

512

*.9xlarge

4

144

576

*.10xlarge

4

160

640

*.12xlarge

4

192

768

*.16xlarge

4

256

1024

*.18xlarge

4

288

1152

*.24xlarge

4

384

1536

实例的默认 Amazon EBS 根卷

随着亚马逊EMR发布6.15及更高版本,亚马逊EMR会自动将亚马逊EBS通用用途 SSD (gp3) 作为其根设备,AMIs以增强性能。在早期版本中,Amazon EBS 将通用SSD型 (gp2) EMR 附加为根设备。

6.15 及更高版本 6.14 及更低版本
默认的根卷类型
  • gp3

  • gp2

默认大小
  • 15GiB

  • (可配置)

  • 6.10 及更高版本 = 15GiB

  • 6.9 及更低版本 = 10GiB

  • (可配置)

默认 IOPS
  • 3000

  • (可配置)

默认吞吐量
  • 125 MiB/s

  • (可配置)

有关如何自定义 Amazon EBS 根设备音量的信息,请参阅指定其他EBS存储卷

指定其他EBS存储卷

在 Amazon 中配置实例类型时EMR,您可以指定其他EBS卷来增加实例存储(如果存在)和默认EBS卷之外的容量。Amazon EBS 提供以下卷类型:通用型 (SSD)、预配置 IOPS (SSD)、吞吐量优化 (HDD)、冷卷 (HDD) 和磁卷。它们的性能特点和价格不同,您可根据应用程序的分析和业务需求定制您的存储。例如,一些应用程序可能需要溢出到磁盘,而其它应用程序可在内存中或使用 Amazon S3 安全工作。

只有在集群启动时以及添加额外的任务节点实例组时,您才能将 Amazon EBS 卷附加到实例。如果 Amazon EMR 集群中的某个实例出现故障,则该实例和连接的 Amazon EBS 卷都将被新卷替换。因此,如果您手动分离 Amazon EBS 卷,Amazon EMR 会将其视为故障,并替换实例存储(如果适用)和卷存储。

亚马逊EMR不允许您将现有集群的卷类型从 gp2 修改为 gp3。EMR要将 gp3 用于您的工作负载,请启动一个新EMR集群。此外,我们不建议您更新正在使用或正在预配置的集群IOPS上的吞吐量,因为 Amazon 在集群扩展期间添加的任何新实例都会EMR使用您在集群启动时指定的吞吐量和IOPS值。有关更多信息,请参阅比较亚马逊的EBS卷类型 gp2 和 gp3迁移到 gp3 Ama EBS zon 卷类型时的选择IOPS和吞吐量

重要

要在集群中使用 gp3 卷,必须启动一个新EMR集群。