EI 的工作原理 - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

EI 的工作原理

Amazon Elastic Inference 加速器是网络附加设备,该设备与端点中的 SageMaker 实例结合使用来加速推理调用。通过 Elastic Inference,您可以将部分 GPU 附加到任何 SageMaker 实例,从而加速推理。您可以选择客户端实例来运行您的应用程序,并附加一个 Elastic Inference 加速器来使用适当数量的 GPU 加速,从而满足推理需求。在未充分利用 GPU 实例进行推理时,Elastic Inference 将帮助您降低成本。我们建议您使用不同的 CPU 实例和加速器大小来对模型试用 Elastic Inference。

EI 加速器有以下类型可用。您可以使用任意 EI 加速器类型配置端点或笔记本实例。

在该表中,列出了单精度浮点 (F32) 和半精度浮点 (F16) 操作的吞吐量,以万亿次浮点运算 (TFLOPS) 为单位。此外还以 GB 为单位列出了内存。

加速器类型 F32 吞吐量 (TFLOPS) F16 吞吐量 (TFLOPS) 内存 (GB)
ml.eia2.medium 1 8 2
ml.eia2.large 2 16 4
ml.eia2.xlarge 4 32 8
ml.eia1.medium 1 8 1
ml.eia1.large 2 16 2
ml.eia1.xlarge 4 32 4