Linux 加速计算实例 - Amazon Elastic Compute Cloud
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

Linux 加速计算实例

注意

有关详细的实例类型规范,请参阅 Amazon EC2 Instance Types Guide。有关定价信息,请参阅 Amazon EC2 实例类型

加速计算实例使用硬件加速器或协处理器来执行一些功能,如浮点数计算、图形处理或数据模式匹配,比在 CPU 上运行的软件更有效。这些实例能在计算密集型工作负载上提供更高的并行度,以实现更高的吞吐量。

如果您需要高处理能力,您可以从使用加速计算实例中获益,这些实例可让您访问基于硬件的计算加速器,如图形处理单元 (GPU)、现场可编程门阵列 (FPGA) 或 Amazon Inferentia

GPU 实例

基于 GPU 的实例能让您访问具有数千个计算内核的 NVIDIA GPU。您可以通过这些实例利用 CUDA 或开放计算语言 (OpenCL) 并行计算框架,为科学、工程和渲染应用程序加速。还可以将这些实例用于图形应用程序,包括游戏流式处理、3-D 应用流式处理和其他图形工作负载。

G5 实例

G5 实例使用 NVIDIA A10G GPU,为图形密集型应用程序(例如远程工作站、视频渲染和云游戏)和应用程序的深度学习模型(例如自然语言处理、计算机视觉和推荐引擎)提供高性能。这些实例配备多达 8 个 NVIDIA A10G GPU、第二代 AMD EPYC 处理器、高达 100Gbps 的网络带宽,以及高达 7.6TB 的本地 NVMe SSD 存储。

G5g 实例

G5g 实例使用 NVIDIA T4G GPU,为利用 OpenGL 和 Vulkan 等行业标准 API 的游戏流和渲染等图形密集型应用程序提供高性能。这些实例也适合为自然语言处理和计算机视觉等应用程序运行深度学习模型。这些实例最多配备 2 个 NVIDIA T4G Tensor Core GPU,Amazon Graviton2 处理器,以及高达 25Gbps 的网络带宽。

G4ad 和 G4dn 实例

G4ad 实例使用 AMD Radeon Pro V520 GPU 和第 2 代 AMD EPYC 处理器,非常适合使用 OpenGL、DirectX 和 Vulkan 等行业标准 API 的图形应用程序,例如远程图形工作站、游戏流和渲染。它们提供多达 4 个 AMD Radeon Pro V520 GPU、64 个 vCPU、25 Gbps 网络和 2.4 TB 本地基于 NVME 的 SSD 存储。

G4dn 实例使用 NVIDIA Tesla GPU,并为使用 CUDA 或机器学习框架的通用 GPU 计算以及使用 DirectX 或 OpenGL 的图形应用程序提供经济高效的高性能平台。这些实例提供高带宽网络、强大的半精度和单精度浮点功能以及 INT8 和 INT4 精度。每个 GPU 具有 16 GiB GDDR6 内存,从而使 G4dn 实例非常适合机器学习推理、视频转码以及图形应用程序,例如,远程图形工作站和云中的游戏流。

G4dn 实例支持 NVIDIA GRID 虚拟工作站。有关更多信息,请参阅 NVIDIA Marketplace 产品

G3 实例

这些实例使用 NVIDIA Tesla M60 GPU,为使用 DirectX 或 OpenGL 的图形应用程序提供经济高效的高性能平台。G3 实例还提供 NVIDIA GRID 虚拟工作站功能 (如 4 个分辨率高达 4096x2160 的监视器) 以及 NVIDIA GRID 虚拟应用程序。G3 实例非常适合一些应用程序,例如,3D 可视化、图形密集型远程工作站、3D 渲染、视频编码、虚拟现实以及其他需要大量并行处理能力的服务器端图形工作负载。

G3 实例支持 NVIDIA GRID 虚拟工作站和 NVIDIA GRID 虚拟应用程序。要激活任一功能,请参阅激活 NVIDIA GRID 虚拟应用程序

G2 实例

这些实例使用 NVIDIA GRID K520 GPU,并为使用 DirectX 或 OpenGL 的图形应用程序提供经济高效的高性能平台。NVIDIA GRID GPU 还支持 NVIDIA 的快速捕获和编码 API 操作。示例应用程序包括视频创建服务、3D 可视化、流图形密集型应用程序,以及其他服务器端图形工作负载。

P5 实例

P5 实例提供 8 个 NVIDIA H100 GPU,配备 640 GB 高带宽 GPU 内存。此外,配备了第三代 AMD EPYC 处理器、2 TB 系统内存、30 TB 本地 NVMe 实例存储、3200 Gps 聚合网络带宽和 GPUDirect RDMA 支持。P5 实例还支持 Amazon EC2 UltraCluster 技术,该技术通过 EFA 降低了延迟并提升了网络性能。对于机器学习和 HPC 工作负载,P5 实例的性能比上一代 GPU 实例高 6 倍。

P5 实例可以加速各种支持 GPU 的工作负载,非常适合大规模分布式机器学习和高性能计算应用程序。

P4d 实例

这些实例使用 NVIDIA A100 GPU,并为机器学习和 HPC 工作负载提供高性能平台。P4d 实例提供 400 Gbps 的聚合网络带宽吞吐量并支持 Elastic Fabric Adapter (EFA)。它们是首批提供多个网卡的 EC2 实例。

P4d 实例支持 NVDIA NVSwitch GPU 互连和 NVIDIA GPUDirect RDMA。

P4de 实例提供 NVIDIA 80GB-A100s GPU

P3 实例

这些实例使用 NVIDIA Tesla V100 GPU,可用于使用 CUDA 或 OpenCL 编程模型或通过机器学习框架进行的通用 GPU 计算。P3 实例提供了高带宽网络、强大的半精度\单精度\双精度浮点功能以及每 GPU 最高 32 GiB 内存,非常适合用于深度学习、计算流体动力学、计算金融、地震分析、分子建模、基因组学、渲染和其他服务器端 GPU 计算工作负载。Tesla V100 GPU 不支持图形模式。

P3 实例支持 NVIDIA NVLink 对等传输。有关更多信息,请参阅 NVIDIA NVLink

P2 实例

P2 实例使用 NVIDIA Tesla GPU K80 和适用于使用 CUDA 和 OpenCL 编程模型的通用 GPU 计算设计。P2 实例提供了高带宽网络、强大的单双精度浮点功能以及每个 GPU 12 GiB 的内存,非常适合深度学习、图形数据库、高性能数据库、计算流体动力学、计算金融、地震分析、分子建模、基因组学、渲染和其他服务器端 GPU 计算工作负载。

P2 实例支持 NVIDIA GPUDirect 对等传输。有关更多信息,请参阅 NVIDIA GPUDirect

使用 Amazon Trainium 的实例

Amazon Trainium 提供支持的 Amazon EC2 Trn1 和 Trn1n 实例专为高性能、经济实惠的深度学习训练而构建。您可以使用 Trn1 和 Trn1n 实例来训练在语音识别、推荐、欺诈检测以及图像和视频分类等各种应用程序中使用的自然语言处理、计算机视觉和推荐器模型。在流行的机器学习(ML)框架(如 PyTorch 和 TensorFlow)中使用您的现有工作流程。AmazonNeuron SDK 与这些框架无缝集成,因此您只需更改几行代码即可开始使用。

有关更多信息,请参阅 Amazon EC2 Trn1 实例

包含 Amazon Inferentia 的实例

这些实例旨在利用 Amazon Inferentia 加速机器学习,它是 Amazon 提供的一款自定义 AI/ML 芯片,可提供高性能、低延迟的机器学习推理。这些实例经过优化,专用于部署各种应用领域的深度学习 (DL) 模型,例如自然语言处理、对象检测和分类、内容个性化和过滤以及语音识别。

您可以通过多种方式开始使用这些模型:

  • 使用 SageMaker,这是一种完全托管的服务,是开始使用机器学习模型的最简单方法。有关更多信息,请参阅《Amazon SageMaker 开发人员指南》中的开始使用 SageMaker

  • 使用 Deep Learning AMI 启动 Inf1 或 Inf2 实例。有关更多信息,请参阅 Amazon Deep Learning AMI 开发人员指南中的使用 DLAMI 的 Amazon Inferentia

  • 使用您自己的 AMI 启动 Inf1 或 Inf2 实例并安装 Amazon Neuron 开发工具包,您可以利用此工具包为 Amazon Inferentia 编译、运行和分析深度学习模型。

  • 结合使用 Inf1 或 Inf2 实例和经过 Amazon ECS 优化的 AMI 启动容器实例。有关更多信息,请参阅 Amazon Elastic Container Service Developer Guide中的 Amazon Linux 2 (Inferentia) AMI

  • 创建包含运行 Inf1 实例的节点的 Amazon EKS 集群。有关更多信息,请参阅 Amazon EKS 用户指南中的 Inferentia 支持

Inf1 实例

Inf1 实例采用 Amazon Inferentia 机器学习推理芯片。Inferentia 是为了在任何规模下实现高性价比的低延迟推理性能而开发的。

Inf2 实例

Inf2 实例采用 Amazon Inferentia2 机器学习推理芯片。与 Inf1 实例相比,这些第二代实例的每次推理成本高出 25%,与同类 Amazon EC2 实例相比,每次推理成本高出 70%。这些实例非常适合使用深度学习模型的各种工作负载。

包含 Habana 加速器的实例

这些实例旨在加速深度学习模型 (DL) 培训工作负载。他们使用来自英特尔旗下公司 Habana Labs 的加速器。这些实例针对图像识别、目标检测和分类以及推荐系统等应用程序的 DL 模型进行了优化。

DL1 实例

DL1 实例使用 Habana Gaudi 加速器。每个加速器提供高达 400 Gbps 的聚合网络带宽以及 32 GB 的高带宽内存 (HBM)。DL1 实例旨在为培训深度学习模型提供高性能和成本效益。

您可以通过多种方式开始使用这些模型:

具有 Qualcomm 加速器的实例

DL2q

DL2q 实例使用 Qualcomm AI100 推理加速器,该加速器采用第七代 Qualcomm Edge AI 内核。其可用于在云中经济高效地部署深度学习(DL)工作负载,或者用于验证将在 Qualcomm 边缘设备上部署的 DL 工作负载的性能和准确性。

DL2q 实例支持高达 1.4 petaFLOPS 的机器学习性能,具有 8 个 Qualcomm AI100 加速器、96 个跨双 Intel Cascade Lake CPU 的 vCPU、768GB 的系统内存和 100Gbps 的网络带宽。每个 Qualcomm AI100 加速器可提供高达 175 TFLOP 的 FP16 性能和 16GB 的加速器内存。

Dl2q 实例非常适合在智能手机、汽车、机器人和扩展现实耳麦上部署边缘 AI 工作负载之前对这些工作负载进行验证。其还支持云推理来运行常用的 DL 应用程序,例如内容生成、图像分析、文本摘要和虚拟助手。

要开始使用 DL2q 实例,我们建议您使用 Amazon 深度学习 AMI(DLAMI),其预先打包在 Qualcomm 应用程序和平台软件开发工具包(SDK)中,以及常用的机器学习框架,例如 PyTorch 和 TensorFlow。

有关更多信息,请参阅 Amazon EC2 DL2q 实例

视频转码实例

这些实例旨在加快视频转码工作负载,例如直播、视频会议和实时转码。

VT1 实例

VT1 实例采用 Xilinx Alveo U30 媒体加速器,专为实时视频转码工作负载而设计。这些实例提供多达 8 个 Xilinx Alveo U30 加速卡,提供高达 192 GB 的系统内存和高达 25 Gbps 的网络带宽。VT1 实例采用 H.264/AVC 和 H.265/HEVC 编解码器,支持高达 4K 超高清分辨率,适用于多流视频转码。

您可以通过多种方式开始使用这些模型:

  • 使用 Amazon Web Services Marketplace 上的 Xilinx U30 AMI 启动 VT1 实例。

  • 使用您自己的 AMI 启动 VT1 实例并安装 Xilinx U30 drivers and Xilinx Video SDK(Xilinx U30 驱动程序和 Xilinx 视频软件开发工具包)。

  • 结合使用 VT1 实例和经过 Amazon ECS 优化的 AMI 启动容器实例。

  • 创建包含运行 VT1 实例的节点的 Amazon EKS 集群。

FPGA 实例

基于 FPGA 的实例能让您访问具有数百万并行系统逻辑单元格的 FPGA。您可以通过基于 FPGA 的加速计算实例,利用定义自硬件加速来加速工作负载,例如基因组学、财务分析、实时视频处理、大数据分析和安全工作负载。您可以使用硬件描述语言 (如 Verilog 或 VHDL) 或使用更高级语言 (如 OpenCL 并行计算框架) 来开发这些加速。您可以开发自己的硬件加速代码或通过 Amazon Web Services Marketplace 购买硬件加速。

FPGA 开发人员 AMI 提供了用于开发、测试和构建 AFI 的工具。您可以在任何具有至少 32 GB 系统内存的 EC2 实例上使用 FPGA 开发人员 AMI (例如,C5、M4 和 R4 实例)。

有关更多信息,请参阅 Amazon FPGA 硬件开发人员工具包的文档。

F1 实例

F1 实例使用 Xilinx UltraScale+ VU9P FPGA 并且专用于加快计算密集型算法,例如不适合通用型 CPU 的数据流或高度并行操作。F1 实例中的每个 FPGA 包含大约 250 万个逻辑单元和大约 6800 个数字信号处理 (DSP) 引擎,连同 64 GiB 的本地 DDR ECC 保护内存一起,通过专用 PCIe Gen3 x16 连接与实例相连。F1 实例提供本地 NVMe SSD 卷。

开发人员可以使用 FPGA 开发人员 AMI 和 Amazon 硬件开发人员工具包来创建用于 F1 实例的自定义硬件加速。FPGA 人员开发 AMI 包括云中的用于全周期 FPGA 开发的开发工具。使用这些工具,开发人员可以创建和分享 Amazon FPGA 映像 (AFI),这些映像可以加载到 F1 实例的 FPGA 上。

硬件规格

以下是加速计算实例的硬件规格摘要。虚拟中央处理单元(vCPU)表示分配给虚拟机(VM)的物理 CPU 的一部分。对于 x86 实例,每个内核有两个 vCPU。对于 Graviton 实例,每个内核有一个 vCPU。

实例类型 默认 vCPU 内存 (GiB) 加速器
dl1.24xlarge 96 768.00 8 个 GPU
dl2q.24xlarge 96 768.00 8 个推理加速器
f1.2xlarge 8 122.00 1 个 FPGA
f1.4xlarge 16 244.00 2 个 FPGA
f1.16xlarge 64 976.00 8 个 FPGA
g2.2xlarge 8 15.00 1 个 GPU
g2.8xlarge 32 60.00 4 个 GPU
g3.4xlarge 16 122.00 1 个 GPU
g3.8xlarge 32 244.00 2 个 GPU
g3.16xlarge 64 488.00 4 个 GPU
g4ad.xlarge 4 16.00 1 个 GPU
g4ad.2xlarge 8 32.00 1 个 GPU
g4ad.4xlarge 16 64.00 1 个 GPU
g4ad.8xlarge 32 128.00 2 个 GPU
g4ad.16xlarge 64 256.00 4 个 GPU
g4dn.xlarge 4 16.00 1 个 GPU
g4dn.2xlarge 8 32.00 1 个 GPU
g4dn.4xlarge 16 64.00 1 个 GPU
g4dn.8xlarge 32 128.00 1 个 GPU
g4dn.12xlarge 48 192.00 4 个 GPU
g4dn.16xlarge 64 256.00 1 个 GPU
g4dn.metal 96 384.00 8 个 GPU
g5.xlarge 4 16.00 1 个 GPU
g5.2xlarge 8 32.00 1 个 GPU
g5.4xlarge 16 64.00 1 个 GPU
g5.8xlarge 32 128.00 1 个 GPU
g5.12xlarge 48 192.00 4 个 GPU
g5.16xlarge 64 256.00 1 个 GPU
g5.24xlarge 96 384.00 4 个 GPU
g5.48xlarge 192 768.00 8 个 GPU
g5g.xlarge 4 8.00 1 个 GPU
g5g.2xlarge 8 16.00 1 个 GPU
g5g.4xlarge 16 32.00 1 个 GPU
g5g.8xlarge 32 64.00 1 个 GPU
g5g.16xlarge 64 128.00 2 个 GPU
g5g.metal 64 128.00 2 个 GPU
inf1.xlarge 4 8.00 1 个推理加速器
inf1.2xlarge 8 16.00 1 个推理加速器
inf1.6xlarge 24 48.00 4 个推理加速器
inf1.24xlarge 96 192.00 16 个推理加速器
inf2.xlarge 4 16.00 1 个推理加速器
inf2.8xlarge 32 128.00 1 个推理加速器
inf2.24xlarge 96 384.00 6 个推理加速器
inf2.48xlarge 192 768.00 12 个推理加速器
p2.xlarge 4 61.00 1 个 GPU
p2.8xlarge 32 488.00 8 个 GPU
p2.16xlarge 64 732.00 16 个 GPU
p3.2xlarge 8 61.00 1 个 GPU
p3.8xlarge 32 244.00 4 个 GPU
p3.16xlarge 64 488.00 8 个 GPU
p3dn.24xlarge 96 768.00 8 个 GPU
p4d.24xlarge 96 1152.00 8 个 GPU
p4de.24xlarge 96 1152.00 8 个 GPU
p5.48xlarge 192 2048.00 8 个 GPU
trn1.2xlarge 8 32.00
trn1.32xlarge 128 512.00
trn1n.32xlarge 128 512.00
vt1.3xlarge 12 24.00
vt1.6xlarge 24 48.00
vt1.24xlarge 96 192.00
注意

trn1n.32xlarge 实例配备了 16 个 Trainium 加速器。

Trn1 实例具有以下数量的 Trainium 加速器。

  • trn1.2xlarge – 1

  • trn1.32xlarge – 16

VT1 实例具有以下数量的 U30 加速器。

  • vt1.3xlarge – 1

  • vt1.6xlarge – 2

  • vt1.24xlarge – 16

加速计算实例使用以下处理器。

Amazon Graviton 处理器
  • Amazon Graviton2:G5g

AMD 处理器
  • 第二代 AMD EPYC 处理器(AMD EPYC 7R32):G4ad、G5

  • 第三代 AMD EPYC 处理器 (AMD EPYC 7R13):P5

英特尔处理器
  • 英特尔至强可扩展处理器(Broadwell E5-2686 v4)F1、G3、P2、P3

  • 英特尔至强可扩展处理器(Skylake 8175):P3dn

  • 第二代英特尔至强可扩展处理器(Cascade Lake P-8275CL):DL1、P4d、P4de

  • 第二代英特尔至强可扩展处理器(Cascade Lake P-8259CL)DL2q、G4dn、Inf1、VT1

  • 第三代英特尔至强可扩展处理器(Cascake Lake 8375C):Trn1

有关详细的实例类型规范,请参阅 Amazon EC2 Instance Types Guide。有关定价信息,请参阅 Amazon EC2 实例类型

实例性能

您可以执行多个 GPU 设置优化,以实现实例的最佳性能。有关更多信息,请参阅优化 GPU 设置

通过 EBS 优化的实例,您可以消除 Amazon EBS I/O 与 实例的其他网络流量之间的争用,从而使 EBS 卷持续获得高性能。有些加速计算实例在默认情况下会进行 EBS 优化,这不会产生额外的费用。有关更多信息,请参阅Amazon EBS 优化的实例

一些加速计算实例类型提供了在 Linux 上控制处理器 C 状态和 P 状态的功能。C 状态控制当核心处理非活动状态时可以进入的睡眠级别,而 P 状态控制核心的所需性能 (以 CPU 频率的形式)。有关更多信息,请参阅您的 EC2 实例的处理器状态控制

网络性能

您可以为受支持的实例类型启用增强联网,以提供更低的延迟、更低的网络抖动和更高的每秒数据包数 (PPS) 性能。大多数应用程序并非始终需要较高的网络性能,但较高的带宽有助于其发送或接收数据。有关更多信息,请参阅Linux 上的增强联网

以下是支持增强联网的加速计算实例的网络性能摘要。

注意

标有 的实例类型具备基准带宽,并且可以通过网络输入/输出积分机制,尽可能将其基准带宽突增到基准以上。有关更多信息,请参阅实例网络带宽

实例类型 网络性能 增强联网功能
dl1.24xlarge 4x100Gb ENA | EFA
dl2q.24xlarge 100Gb ENA | EFA
f1.2xlarge 高达 10Gb ENA
f1.4xlarge 高达 10Gb ENA
f1.16xlarge 25Gb ENA
g2.2xlarge 不支持
g2.8xlarge 不支持
g3.4xlarge 高达 10Gb ENA
g3.8xlarge 10Gb ENA
g3.16xlarge 25Gb ENA
g4ad.xlarge 高达 10Gb ENA
g4ad.2xlarge 高达 10Gb ENA
g4ad.4xlarge 高达 10Gb ENA
g4ad.8xlarge 15Gb ENA
g4ad.16xlarge 25Gb ENA
g4dn.xlarge 高达 25Gb ENA
g4dn.2xlarge 高达 25Gb ENA
g4dn.4xlarge 高达 25Gb ENA
g4dn.8xlarge 50Gb ENA | EFA
g4dn.12xlarge 50Gb ENA | EFA
g4dn.16xlarge 50Gb ENA | EFA
g4dn.metal 100Gb ENA | EFA
g5.xlarge 高达 10Gb ENA
g5.2xlarge 高达 10Gb ENA
g5.4xlarge 高达 25Gb ENA
g5.8xlarge 25Gb ENA | EFA
g5.12xlarge 40Gb ENA | EFA
g5.16xlarge 25Gb ENA | EFA
g5.24xlarge 50Gb ENA | EFA
g5.48xlarge 100Gb ENA | EFA
g5g.xlarge 高达 10Gb ENA
g5g.2xlarge 高达 10Gb ENA
g5g.4xlarge 高达 10Gb ENA
g5g.8xlarge 12Gb ENA
g5g.16xlarge 25Gb ENA
g5g.metal 25Gb ENA
inf1.xlarge 高达 25Gb ENA
inf1.2xlarge 高达 25Gb ENA
inf1.6xlarge 25Gb ENA
inf1.24xlarge 100Gb ENA | EFA
inf2.xlarge 高达 15Gb ENA
inf2.8xlarge 高达 25Gb ENA
inf2.24xlarge 50Gb ENA
inf2.48xlarge 100Gb ENA
p2.xlarge ENA
p2.8xlarge 10Gb ENA
p2.16xlarge 25Gb ENA
p3.2xlarge 高达 10Gb ENA
p3.8xlarge 10Gb ENA
p3.16xlarge 25Gb ENA
p3dn.24xlarge 100Gb ENA | EFA
p4d.24xlarge 4x100Gb ENA | EFA
p4de.24xlarge 4x100Gb ENA | EFA
p5.48xlarge 3200 Gb ENA | EFA
trn1.2xlarge 高达 12.5Gb ENA
trn1.32xlarge 8x100Gb ENA | EFA
trn1n.32xlarge 16x 100 Gb ENA | EFA
vt1.3xlarge 3.12Gb ENA
vt1.6xlarge 6.25Gb ENA
vt1.24xlarge 25Gb ENA | EFA

下表显示了实例类型的基准带宽和突增带宽,这些实例类型通过网络输入/输出积分机制将其基准带宽突增到基准以上。

实例类型 基准带宽 (Gbps) 突增带宽 (Gbps)
f1.2xlarge 2.5 10
f1.4xlarge 5 10
g3.4xlarge 5 10
g4ad.xlarge 2.0 10.0
g4ad.2xlarge 4.167 10.0
g4ad.4xlarge 8.333 10.0
g4dn.xlarge 5.0 25.0
g4dn.2xlarge 10.0 25.0
g4dn.4xlarge 20.0 25.0
g5.xlarge 2.5 10.0
g5.2xlarge 5.0 10.0
g5.4xlarge 10.0 25.0
g5g.xlarge 1.25 10.0
g5g.2xlarge 2.5 10.0
g5g.4xlarge 5.0 10.0
inf1.xlarge 5.0 25.0
inf1.2xlarge 5.0 25.0
inf2.xlarge 2.083 15.0
inf2.8xlarge 16.667 25.0
trn1.2xlarge 3.125 12.5

Amazon EBS I/O 性能

Amazon EBS 优化型实例使用经过优化的配置堆栈,并为 Amazon EBS I/O 提供额外的专用容量。这种优化通过最小化 Amazon EBS I/O 与来自您实例的其他流量之间的争用,为您的 Amazon EBS 卷提供最佳性能。

有关更多信息,请参阅Amazon EBS 优化的实例

基于 SSD 的实例存储卷的 I/O 性能

如果您使用内核版本为 4.4 或更高版本的 Linux AMI 并使用可用于您的实例的、基于 SSD 的所有实例存储卷,则您最高可以获得下表所列的 IOPS(4096 字节的数据块大小)性能(在队列深度饱和时)。否则,您将获得较低的 IOPS 性能。

实例大小 100% 随机读取 IOPS 写入 IOPS
dl1.24xlarge 1000000 800000
g4ad.xlarge 10417 8333
g4ad.2xlarge 20833 16667
g4ad.4xlarge 41667 33333
g4ad.8xlarge 83333 66667
g4ad.16xlarge 166666 133332
g4dn.xlarge 42500 32500
g4dn.2xlarge 42500 32500
g4dn.4xlarge 85000 65000
g4dn.8xlarge 250000 200000
g4dn.12xlarge 250000 200000
g4dn.16xlarge 250000 200000
g4dn.metal 500000 400000
g5.xlarge 40625 20313
g5.2xlarge 40625 20313
g5.4xlarge 125000 62500
g5.8xlarge 250000 125000
g5.12xlarge 312500 156250
g5.16xlarge 250000 125000
g5.24xlarge 312500 156250
g5.48xlarge 625000 312500
p3dn.24xlarge 700000 340000
p4d.24xlarge 2000000 1600000
p4de.24xlarge 2000000 1600000
p5.48xlarge 4400000 2200000
trn1.2xlarge 107500 45000
trn1.32xlarge 1720000 720000
trn1n.32xlarge 1720000 720000

随着您不断在您的实例的基于 SSD 的实例存储卷中填充数据,您可以达到的写入 IOPS 将不断减少。这是因为,SSD 控制器必须执行额外的工作,即查找可用空间、重写现有数据,以及擦除未使用的空间以使之可供重写。这一垃圾回收过程将导致对 SSD 的内部写入放大影响,这以 SSD 写入操作数相对于用户写入操作数的比率形式来表示。如果写入操作数并非 4096 字节的倍数,或不在 4096 字节这一边界上,则性能的降低会更明显。如果您写入的字节数较少或不在边界上,则 SSD 控制器必须读取周围的数据并在新位置存储结果。这种模式会大大增加写入放大的影响,加长延迟,并显著降低 I/O 性能。

SSD 控制器可以使用多种策略来减少写入放大的影响。其中的一个策略是在 SSD 实例存储中预订空间,以便控制器更高效地管理可用于写入操作的空间。这称为超额配置。为 实例提供的基于 SSD 的实例存储卷不会为超额配置预保留空白间。要减少写入放大问题造成的影响,建议您留出 10% 的卷空间不进行分区,以便 SSD 控制器可使用这部分空间来进行超额配置。虽然这会减少您可使用的存储空间,但可提高性能,即使磁盘容量快用完也是如此。

对于支持 TRIM 的实例存储卷,您可在不再需要已写入的数据时使用 TRIM 命令告知 SSD 控制器此情况。这将为控制器提供更多可用空间,从而可以减少写入放大的影响并提高性能。有关更多信息,请参阅实例存储卷 TRIM 支持

发布说明

  • 为了实现 P5 实例的最佳性能,建议您执行以下操作:

  • 您必须使用 HVM AMI 启动实例。

  • 基于 Nitro 系统构建的实例具有以下要求:

    以下 Linux AMI 满足这些要求:

    • AL2023

    • Amazon Linux 2

    • Amazon Linux AMI 2018.03 和更高版本

    • Ubuntu 14.04 或更高版本(采用 linux-aws 内核)

      注意

      Amazon 基于 Graviton 的实例类型需要 Ubuntu 18.04 或更高版本(采用 linux-aws 内核)

    • Red Hat Enterprise Linux 7.4 或更高版本

    • SUSE Linux Enterprise Server 12 SP2 或更高版本

    • CentOS 7.4.1708 或更高版本

    • FreeBSD 11.1 或更高版本

    • Debian GNU/Linux 9 或更高版本

  • 除非安装了 NVIDIA 驱动程序,否则基于 GPU 的实例无法访问 GPU。有关更多信息,请参阅在 Linux 实例上安装 NVIDIA 驱动程序

  • 启动裸机实例会启动基础服务器,包含验证所有硬件和固件组件。这意味着从实例进入运行状态直至在网络上可用需要超过 20 分钟的时间。

  • 对裸机实例附加或分离 EBS 卷或辅助网络接口需要 PCIe 本机 hotplug 支持。Amazon Linux 2 和最新版本的 Amazon Linux AMI 支持 PCIe 本机 hotplug,但更早的版本不支持。必须启用以下 Linux 内核配置选项:

    CONFIG_HOTPLUG_PCI_PCIE=y CONFIG_PCIEASPM=y
  • 裸机实例使用基于 PCI 的串行设备而不是基于 I/O 端口的串行设备。上游 Linux 内核和最新 Amazon Linux AMI 支持此设备。裸机实例还提供一个 ACPI SPCR 表,使系统能够自动使用基于 PCI 的串行设备。最新 Windows AMI 自动使用基于 PCI 的串行设备。

  • 每个区域仅限 100 个 AFI。

  • 在一个区域中可以启动的实例总数存在限制,某些实例类型还存在其他限制。有关更多信息,请参阅 Amazon EC2 常见问题解答中的我可以在 Amazon EC2 中运行多少个实例?