Windows 加速计算实例
注意
有关详细的实例类型规范,请参阅 Amazon EC2 Instance Types Guide。有关定价信息,请参阅 Amazon EC2 实例类型
加速计算实例使用硬件加速器或协处理器来执行一些功能,如浮点数计算、图形处理或数据模式匹配,比在 CPU 上运行的软件更有效。这些实例能在计算密集型工作负载上提供更高的并行度,以实现更高的吞吐量。
如果您需要高处理能力,您可以从使用加速计算实例中获益,这些实例可让您访问基于硬件的计算加速器,如图形处理单元 (GPU)、。
目录
GPU 实例
基于 GPU 的实例能让您访问具有数千个计算内核的 NVIDIA GPU。您可以通过这些实例利用 CUDA 或开放计算语言 (OpenCL) 并行计算框架,为科学、工程和渲染应用程序加速。还可以将这些实例用于图形应用程序,包括游戏流式处理、3-D 应用流式处理和其他图形工作负载。
G5 实例
G5 实例使用 NVIDIA A10G GPU,为图形密集型应用程序(例如远程工作站、视频渲染和云游戏)和应用程序的深度学习模型(例如自然语言处理、计算机视觉和推荐引擎)提供高性能。这些实例配备多达 8 个 NVIDIA A10G GPU、第二代 AMD EPYC 处理器、高达 100Gbps 的网络带宽,以及高达 7.6TB 的本地 NVMe SSD 存储。
G4ad 和 G4dn 实例
G4ad 实例使用 AMD Radeon Pro V520 GPU 和第 2 代 AMD EPYC 处理器,非常适合使用 OpenGL、DirectX 和 Vulkan 等行业标准 API 的图形应用程序,例如远程图形工作站、游戏流和渲染。它们提供多达 4 个 AMD Radeon Pro V520 GPU、64 个 vCPU、25 Gbps 网络和 2.4 TB 本地基于 NVME 的 SSD 存储。
G4dn 实例使用 NVIDIA Tesla GPU,并为使用 CUDA 或机器学习框架的通用 GPU 计算以及使用 DirectX 或 OpenGL 的图形应用程序提供经济高效的高性能平台。这些实例提供高带宽网络、强大的半精度和单精度浮点功能以及 INT8 和 INT4 精度。每个 GPU 具有 16 GiB GDDR6 内存,从而使 G4dn 实例非常适合机器学习推理、视频转码以及图形应用程序,例如,远程图形工作站和云中的游戏流。
G4dn 实例支持 NVIDIA GRID 虚拟工作站。有关更多信息,请参阅 NVIDIA Marketplace 产品
G3 实例
这些实例使用 NVIDIA Tesla M60 GPU,为使用 DirectX 或 OpenGL 的图形应用程序提供经济高效的高性能平台。G3 实例还提供 NVIDIA GRID 虚拟工作站功能 (如 4 个分辨率高达 4096x2160 的监视器) 以及 NVIDIA GRID 虚拟应用程序。G3 实例非常适合一些应用程序,例如,3D 可视化、图形密集型远程工作站、3D 渲染、视频编码、虚拟现实以及其他需要大量并行处理能力的服务器端图形工作负载。
G3 实例支持 NVIDIA GRID 虚拟工作站和 NVIDIA GRID 虚拟应用程序。要激活任一功能,请参阅激活 NVIDIA GRID 虚拟应用程序。
G2 实例
这些实例使用 NVIDIA GRID K520 GPU,并为使用 DirectX 或 OpenGL 的图形应用程序提供经济高效的高性能平台。NVIDIA GRID GPU 还支持 NVIDIA 的快速捕获和编码 API 操作。示例应用程序包括视频创建服务、3D 可视化、流图形密集型应用程序,以及其他服务器端图形工作负载。
P4de 实例提供 NVIDIA 80GB-A100s GPU
P3 实例
这些实例使用 NVIDIA Tesla V100 GPU,可用于使用 CUDA 或 OpenCL 编程模型或通过机器学习框架进行的通用 GPU 计算。P3 实例提供了高带宽网络、强大的半精度\单精度\双精度浮点功能以及每 GPU 最高 32 GiB 内存,非常适合用于深度学习、计算流体动力学、计算金融、地震分析、分子建模、基因组学、渲染和其他服务器端 GPU 计算工作负载。Tesla V100 GPU 不支持图形模式。
P3 实例支持 NVIDIA NVLink 对等传输。有关更多信息,请参阅 NVIDIA NVLink
P2 实例
P2 实例使用 NVIDIA Tesla GPU K80 和适用于使用 CUDA 和 OpenCL 编程模型的通用 GPU 计算设计。P2 实例提供了高带宽网络、强大的单双精度浮点功能以及每个 GPU 12 GiB 的内存,非常适合深度学习、图形数据库、高性能数据库、计算流体动力学、计算金融、地震分析、分子建模、基因组学、渲染和其他服务器端 GPU 计算工作负载。
P2 实例支持 NVIDIA GPUDirect 对等传输。有关更多信息,请参阅 NVIDIA GPUDirect
硬件规格
以下是加速计算实例的硬件规格摘要。虚拟中央处理单元(vCPU)表示分配给虚拟机(VM)的物理 CPU 的一部分。对于 x86 实例,每个内核有两个 vCPU。对于 Graviton 实例,每个内核有一个 vCPU。
实例类型 | 默认 vCPU | 内存 (GiB) | 加速器 |
---|---|---|---|
g2.2xlarge | 8 | 15.00 | 1 个 GPU |
g2.8xlarge | 32 | 60.00 | 4 个 GPU |
g3.4xlarge | 16 | 122.00 | 1 个 GPU |
g3.8xlarge | 32 | 244.00 | 2 个 GPU |
g3.16xlarge | 64 | 488.00 | 4 个 GPU |
g4ad.xlarge | 4 | 16.00 | 1 个 GPU |
g4ad.2xlarge | 8 | 32.00 | 1 个 GPU |
g4ad.4xlarge | 16 | 64.00 | 1 个 GPU |
g4ad.8xlarge | 32 | 128.00 | 2 个 GPU |
g4ad.16xlarge | 64 | 256.00 | 4 个 GPU |
g4dn.xlarge | 4 | 16.00 | 1 个 GPU |
g4dn.2xlarge | 8 | 32.00 | 1 个 GPU |
g4dn.4xlarge | 16 | 64.00 | 1 个 GPU |
g4dn.8xlarge | 32 | 128.00 | 1 个 GPU |
g4dn.12xlarge | 48 | 192.00 | 4 个 GPU |
g4dn.16xlarge | 64 | 256.00 | 1 个 GPU |
g4dn.metal | 96 | 384.00 | 8 个 GPU |
g5.xlarge | 4 | 16.00 | 1 个 GPU |
g5.2xlarge | 8 | 32.00 | 1 个 GPU |
g5.4xlarge | 16 | 64.00 | 1 个 GPU |
g5.8xlarge | 32 | 128.00 | 1 个 GPU |
g5.12xlarge | 48 | 192.00 | 4 个 GPU |
g5.16xlarge | 64 | 256.00 | 1 个 GPU |
g5.24xlarge | 96 | 384.00 | 4 个 GPU |
g5.48xlarge | 192 | 768.00 | 8 个 GPU |
p2.xlarge | 4 | 61.00 | 1 个 GPU |
p2.8xlarge | 32 | 488.00 | 8 个 GPU |
p2.16xlarge | 64 | 732.00 | 16 个 GPU |
p3.2xlarge | 8 | 61.00 | 1 个 GPU |
p3.8xlarge | 32 | 244.00 | 4 个 GPU |
p3.16xlarge | 64 | 488.00 | 8 个 GPU |
p3dn.24xlarge | 96 | 768.00 | 8 个 GPU |
加速计算实例使用以下处理器。
AMD 处理器
-
第二代 AMD EPYC 处理器(AMD EPYC 7R32):G4ad、G5
英特尔处理器
-
英特尔至强可扩展处理器(Broadwell E5-2686 v4):、G3、P2、P3
-
英特尔至强可扩展处理器(Skylake 8175):P3dn
-
第二代英特尔至强可扩展处理器(Cascade Lake P-8259CL):、G4dn、
有关详细的实例类型规范,请参阅 Amazon EC2 Instance Types Guide。有关定价信息,请参阅 Amazon EC2 实例类型
实例性能
通过 EBS 优化的实例,您可以消除 Amazon EBS I/O 与 实例的其他网络流量之间的争用,从而使 EBS 卷持续获得高性能。有些加速计算实例在默认情况下会进行 EBS 优化,这不会产生额外的费用。有关更多信息,请参阅Amazon EBS 优化的实例。
网络性能
您可以为受支持的实例类型启用增强联网,以提供更低的延迟、更低的网络抖动和更高的每秒数据包数 (PPS) 性能。大多数应用程序并非始终需要较高的网络性能,但较高的带宽有助于其发送或接收数据。有关更多信息,请参阅Windows 上的增强联网。
以下是支持增强联网的加速计算实例的网络性能摘要。
注意
标有 † 的实例类型具备基准带宽,并且可以通过网络输入/输出积分机制,尽可能将其基准带宽突增到基准以上。有关更多信息,请参阅实例网络带宽。
实例类型 | 网络性能 | 增强联网功能 |
---|---|---|
g2.2xlarge |
中 | 不支持 |
g2.8xlarge |
高 | 不支持 |
g3.4xlarge † |
高达 10Gb | ENA |
g3.8xlarge |
10Gb | ENA |
g3.16xlarge |
25Gb | ENA |
g4ad.xlarge † |
高达 10Gb | ENA |
g4ad.2xlarge † |
高达 10Gb | ENA |
g4ad.4xlarge † |
高达 10Gb | ENA |
g4ad.8xlarge |
15Gb | ENA |
g4ad.16xlarge |
25Gb | ENA |
g4dn.xlarge † |
高达 25Gb | ENA |
g4dn.2xlarge † |
高达 25Gb | ENA |
g4dn.4xlarge † |
高达 25Gb | ENA |
g4dn.8xlarge |
50Gb | ENA | EFA |
g4dn.12xlarge |
50Gb | ENA | EFA |
g4dn.16xlarge |
50Gb | ENA | EFA |
g4dn.metal |
100Gb | ENA | EFA |
g5.xlarge † |
高达 10Gb | ENA |
g5.2xlarge † |
高达 10Gb | ENA |
g5.4xlarge † |
高达 25Gb | ENA |
g5.8xlarge |
25Gb | ENA | EFA |
g5.12xlarge |
40Gb | ENA | EFA |
g5.16xlarge |
25Gb | ENA | EFA |
g5.24xlarge |
50Gb | ENA | EFA |
g5.48xlarge |
100Gb | ENA | EFA |
p2.xlarge |
高 | ENA |
p2.8xlarge |
10Gb | ENA |
p2.16xlarge |
25Gb | ENA |
p3.2xlarge † |
高达 10Gb | ENA |
p3.8xlarge |
10Gb | ENA |
p3.16xlarge |
25Gb | ENA |
p3dn.24xlarge |
100Gb | ENA | EFA |
下表显示了实例类型的基准带宽和突增带宽,这些实例类型通过网络输入/输出积分机制将其基准带宽突增到基准以上。
实例类型 | 基准带宽 (Gbps) | 突增带宽 (Gbps) |
---|---|---|
g3.4xlarge |
5 | 10 |
g4ad.xlarge |
2.0 | 10.0 |
g4ad.2xlarge |
4.167 | 10.0 |
g4ad.4xlarge |
8.333 | 10.0 |
g4dn.xlarge |
5.0 | 25.0 |
g4dn.2xlarge |
10.0 | 25.0 |
g4dn.4xlarge |
20.0 | 25.0 |
g5.xlarge |
2.5 | 10.0 |
g5.2xlarge |
5.0 | 10.0 |
g5.4xlarge |
10.0 | 25.0 |
Amazon EBS I/O 性能
Amazon EBS 优化型实例使用经过优化的配置堆栈,并为 Amazon EBS I/O 提供额外的专用容量。这种优化通过最小化 Amazon EBS I/O 与来自您实例的其他流量之间的争用,为您的 Amazon EBS 卷提供最佳性能。
有关更多信息,请参阅Amazon EBS 优化的实例。
基于 SSD 的实例存储卷的 I/O 性能
如果您使用可用于您的实例的、基于 SSD 的所有实例存储卷,则您最高可以获得下表所列的 IOPS(4096 字节的数据块大小)性能(在队列深度饱和时)。否则,您将获得较低的 IOPS 性能。
实例大小 | 100% 随机读取 IOPS | 写入 IOPS |
---|---|---|
g4ad.xlarge |
10417 | 8333 |
g4ad.2xlarge |
20833 | 16667 |
g4ad.4xlarge |
41667 | 33333 |
g4ad.8xlarge |
83333 | 66667 |
g4ad.16xlarge |
166666 | 133332 |
g4dn.xlarge |
42500 | 32500 |
g4dn.2xlarge |
42500 | 32500 |
g4dn.4xlarge |
85000 | 65000 |
g4dn.8xlarge |
250000 | 200000 |
g4dn.12xlarge |
250000 | 200000 |
g4dn.16xlarge |
250000 | 200000 |
g4dn.metal |
500000 | 400000 |
g5.xlarge |
40625 | 20313 |
g5.2xlarge |
40625 | 20313 |
g5.4xlarge |
125000 | 62500 |
g5.8xlarge |
250000 | 125000 |
g5.12xlarge |
312500 | 156250 |
g5.16xlarge |
250000 | 125000 |
g5.24xlarge |
312500 | 156250 |
g5.48xlarge |
625000 | 312500 |
p3dn.24xlarge |
700000 | 340000 |
随着您不断在您的实例的基于 SSD 的实例存储卷中填充数据,您可以达到的写入 IOPS 将不断减少。这是因为,SSD 控制器必须执行额外的工作,即查找可用空间、重写现有数据,以及擦除未使用的空间以使之可供重写。这一垃圾回收过程将导致对 SSD 的内部写入放大影响,这以 SSD 写入操作数相对于用户写入操作数的比率形式来表示。如果写入操作数并非 4096 字节的倍数,或不在 4096 字节这一边界上,则性能的降低会更明显。如果您写入的字节数较少或不在边界上,则 SSD 控制器必须读取周围的数据并在新位置存储结果。这种模式会大大增加写入放大的影响,加长延迟,并显著降低 I/O 性能。
SSD 控制器可以使用多种策略来减少写入放大的影响。其中的一个策略是在 SSD 实例存储中预订空间,以便控制器更高效地管理可用于写入操作的空间。这称为超额配置。为 实例提供的基于 SSD 的实例存储卷不会为超额配置预保留空白间。要减少写入放大问题造成的影响,建议您留出 10% 的卷空间不进行分区,以便 SSD 控制器可使用这部分空间来进行超额配置。虽然这会减少您可使用的存储空间,但可提高性能,即使磁盘容量快用完也是如此。
对于支持 TRIM 的实例存储卷,您可在不再需要已写入的数据时使用 TRIM 命令告知 SSD 控制器此情况。这将为控制器提供更多可用空间,从而可以减少写入放大的影响并提高性能。有关更多信息,请参阅实例存储卷 TRIM 支持。
发布说明
-
您必须使用 HVM AMI 启动实例。
-
基于 Nitro 系统构建的实例具有以下要求:
必须安装有 NVMe 驱动程序。
必须安装有 Elastic Network Adapter (ENA) 驱动程序。
当前 Amazon Windows AMI 满足这些要求。
-
除非安装了 NVIDIA 驱动程序,否则基于 GPU 的实例无法访问 GPU。有关更多信息,请参阅在 Windows 实例上安装 NVIDIA 驱动程序。
-
启动裸机实例会启动基础服务器,包含验证所有硬件和固件组件。这意味着从实例进入运行状态直至在网络上可用需要超过 20 分钟的时间。
-
对裸机实例附加或分离 EBS 卷或辅助网络接口需要 PCIe 本机 hotplug 支持。
-
裸机实例使用基于 PCI 的串行设备而不是基于 I/O 端口的串行设备。上游 Linux 内核和最新 Amazon Linux AMI 支持此设备。裸机实例还提供一个 ACPI SPCR 表,使系统能够自动使用基于 PCI 的串行设备。最新 Windows AMI 自动使用基于 PCI 的串行设备。
-
每个区域仅限 100 个 AFI。
-
在一个区域中可以启动的实例总数存在限制,某些实例类型还存在其他限制。有关更多信息,请参阅 Amazon EC2 常见问题解答中的我可以在 Amazon EC2 中运行多少个实例?
。 -
如果您使用在单 GPU 实例上创建的 Windows AMI 启动多 GPU 实例,则 Windows 不会为所有 GPU 自动安装 NVIDIA 驱动程序。您必须授权新 GPU 硬件的驱动程序安装。通过打开其他设备类别(非活动 GPU 不会出现在显示适配器下),您可以在“设备管理器”中手动更正此设置。对于每个非活动 GPU,请打开上下文 (右键单击) 菜单,选择更新驱动程序软件,然后选择默认自动更新选项。
-
在使用 Microsoft 远程桌面协议 (RDP) 时,使用 WDDM 驱动程序模型的 GPU 会替换为非加速的远程桌面显示驱动程序。我们建议您使用不同的远程访问工具来访问您的 GPU,例如 Teradici Cloud Access Software
、NICE Desktop Cloud Visualization (DCV) 或 VNC。还可以使用 Amazon Web Services Marketplace 中的 GPU AMI 之一,因为它们提供支持 3D 加速的远程访问工具。