本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
使用亚马逊 SageMaker Elastic Inference (EI)
此功能在中国区域中不可用。 |
从 2023 年 4 月 15 日起,Amazon将不会让新客户加入 Amazon Elastic Inference (EI),并将帮助现有客户将其工作负载迁移到价格和性能更高的选项。2023 年 4 月 15 日之后,新客户将无法在亚马逊、亚马逊 ECS 或Amazon SageMaker EC2 中使用亚马逊 EI 加速器启动实例。但是,在过去 30 天内至少使用过一次 Amazon EI 的客户被视为当前客户,可以继续使用该服务。
Machine Learning (ML) on 通过低成本的付费 as-you-go 使用模式提供的最全面的 ML 服务和基础架构,Amazon帮助您更快地进行创新。 Amazon持续为 ML 推理工作负载提供性能更好、成本更低的基础架构。 Amazon2018 年推出 Amazon Elastic Inferencate (EI),使客户可将低成本 GPU 驱动的加速附加到 Amazon EC2、Amazon EC2 SageMaker 实例或 Amazon Elastic Servate Servate (ECS) 任务,从而将运行深度学习推理的成本降低高达 75%。2019 年,Amazon推出了Amazon Inferentia,这是亚马逊的首款定制芯片,旨在通过在云端提供高性能推断来加速深度学习工作负载。基于 InfAmazon erentia 芯片的 Amazon EC2 Inf1 实例提供的吞吐量比当前同类基于 GPU 的 Amazon EC2 实例高 2.3 倍,每次推断的成本降低多达 70%。随着Amazon Inferentia 和 Amazon EC2 G5 实例等新的加速计算选项的问世,使用 Amazon EI 将分数 GPU 连接到 CPU 主机实例的好处已经减弱了。例如,在 Amazon EI 上托管模型并迁移到ml.inf1.xlarge
实例的客户最多可以节省 56% 的成本和 2 倍的性能提升。
客户可以使用亚马逊 SageMaker 推理推荐器帮助他们选择 Amazon EI 的最佳替代实例来部署机器学习模型。
常见问题
-
为什么亚马逊鼓励客户将工作负载从 Amazon Elastic Inference (EI) 转移到更新的硬件加速选项,例如Amazon Inferentia?
借助适用于推理工作负载的 AmazonInferenti
a 等新的硬件加速器选项,客户可以以比 Amazon EI 优惠得多的价格获得更好的性能。 AmazonInferentia 旨在在云端提供高性能推理,降低推理的总成本,并使开发人员能够轻松地将机器学习集成到他们的业务应用程序中。为了让客户能够从此类新一代硬件加速器中受益,我们不会在 2023 年 4 月 15 日之后为新客户加入 Amazon EI。 -
停止向新客户加入 Amazon Elastic Inference (EI) 的举动影响了哪些Amazon服务?
该公告将影响连接到任何Amazon EC2、亚马逊 SageMaker 实例或亚马逊弹性容器服务 (ECS) 任务的 Amazon EI 加速器。在亚马逊 SageMaker,这适用于使用 Amazon EI 加速器的终端节点和笔记本内核。
-
2023 年 4 月 15 日之后我能否创建新的Amazon Elastic Inference (EI) 加速器?
不,如果您是新客户并且在过去 30 天内没有使用过 Amazon EI,那么在 2023 年 4 月 15 日之后,您将无法在您的Amazon账户中创建新的 Amazon EI 实例。但是,如果您在过去 30 天内至少使用过一次 Amazon EI 加速器,则可以将新的 Amazon EI 加速器连接到您的实例。
-
我们目前使用Amazon Elastic Inference (EI) 加速器。2023 年 4 月 15 日之后我们能否继续使用它们?
是的,您将能够使用亚马逊 EI 加速器。我们建议您尽早将当前在 Amazon EI 上运行的 ML Inference 工作负载迁移到其他硬件加速器选项。
-
如何评估我当前 Amazon SageMaker Inference 终端节点的替代实例选项?
Amazon SageMaker 推理推荐器可以帮助您确定经济实惠的部署,将现有工作负载从 Amazon Elastic Inference (EI) 迁移到支持的相应机器学习实例 SageMaker。
-
如何更改我在 Amazon 中的现有终端节点的实例类型 SageMaker?
您可以通过以下操作更改现有终端节点的实例类型:
首先,创建 EndpointConfig一个使用新实例类型的新实例类型。如果您有自动扩展策略,请删除现有的自动扩展策略。
UpdateEndpoint在指定新创建的同时致电 EndpointConfig。
等待您的终端节点状态更改为
InService
。这将需要大约 10-15 分钟。最后,如果您需要对新终端节点进行自动扩展,请为此新端点创建新的自动扩展策略,然后 ProductionVariant。
-
如何使用Amazon Elastic Inference (EI) 更改现有亚马逊 SageMaker 笔记本实例的实例类型?
在 SageMaker 控制台中选择 Noteb ook 实例,然后选择要更新的笔记本实例。确保笔记本实例处于
Stopped
状态。最后,您可以选择编辑并更改您的实例类型。确保在您的 Notebook 实例启动时,为新实例选择正确的内核。 -
是否有特定的实例类型可以很好地替代Amazon Elastic Inference (EI)?
每个机器学习工作负载都是独一无二的。我们建议使用 Amazon SageMaker Inference Remolider 来帮助您确定适合您的 ML 工作负载、性能要求和预算的正确实例类型。 Amazon具体而言
inf1.xlarge
,Inferentia是亚马逊 EI 客户的最佳高性能和低成本替代方案。
主题
EI 的工作原理
Amazon Elastic Inference 加速器是网络连接设备,可与您的终端节点中的 SageMaker 实例配合使用,以加速您的推理调用。Elastic Inference 允许您将部分 GPU 附加到任何 SageMaker 实例,从而加速推理。您可以选择客户端实例来运行您的应用程序,并附加一个 Elastic Inference 加速器来使用适当数量的 GPU 加速,从而满足推理需求。在未充分利用 GPU 实例进行推理时,Elastic Inference 将帮助您降低成本。我们建议您使用不同的 CPU 实例和加速器大小来对模型试用 Elastic Inference。
EI 加速器有以下类型可用。您可以使用任意 EI 加速器类型配置终端节点或笔记本实例。
在该表中,列出了单精度浮点 (F32) 和半精度浮点 (F16) 操作的吞吐量,以万亿次浮点运算 (TFLOPS) 为单位。此外还以 GB 为单位列出了内存。
加速器类型 | F32 吞吐量 (TFLOPS) | F16 吞吐量 (TFLOPS) | 内存 (GB) |
---|---|---|---|
ml.eia2.medium | 1 | 8 | 2 |
ml.eia2.large | 2 | 16 | 4 |
ml.eia2.xlarge | 4 | 32 | 8 |
ml.eia1.medium | 1 | 8 | 1 |
ml.eia1.large | 2 | 16 | 2 |
ml.eia1.xlarge | 4 | 32 | 4 |
选择 EI 加速器类型
在为托管模型选择加速器类型时,请考虑以下因素:
-
模型、输入张量和批量大小影响您需要的加速器内存数量。在开始时,使用提供的内存至少与您训练模型的文件大小相当的加速器类型。一个因素是模型在运行时使用的内存可能比文件大小大得多。
-
对 CPU 计算资源、主系统内存以及基于 GPU 的加速和加速器内存的需求因不同类型的深度学习模型而异。应用程序的延迟和吞吐量需求也会确定您需要的计算和加速的数量。全面测试不同实例类型和 EI 加速器大小的配置,确保选择最适合您应用程序性能需求的配置。
有关如何选择 EI 加速器的更多信息,请参阅:
在 SageMaker 笔记本实例中使用 EI
通常,您需要在 SageMaker 笔记本中构建和测试机器学习模型,然后再将其部署到生产环境中。在创建笔记本实例时,您可以将 EI 附加到笔记本实例。您可以使用 MXNet 支持的本地模式以及 Amaz SageMaker on Python SDK
在托管终端节点上使用 EI
当您准备好将模型部署到生产环境以提供推论时,您可以创建 SageMaker 托管终端节点。您可以将 EI 附加到其中托管了终端节点的实例,用于在提供推理时提升其性能。有关如何将 EI 附加到托管终端节点实例的说明,请参阅在亚马逊 SageMaker 托管终端节点上使用 EI。
支持 EI 的框架
Amazon Elastic Inference 专为与 Apache MXNet 或 PyTorch 机器学习框架的Amazon TensorFlow增强版本一起使用而设计。当您使用 Amaz SageMaker on Python SDK 时,这些增强版框架会自动内置到容器中,或者您可以将它们下载为二进制文件并将其导入您自己的 Docker 容器中。
你可以将启用 EI 的 TensorFlow 二进制文件从公共 amazonei-tensorflow
你可以将启用 EI 的 MXNet 二进制文件从公共 amazonei-apachemxnet
你可以将启用 EI 的 PyTorch 二进制文件从公共 amazonei-pytorch
要在托管终端节点中使用 Elastic Inference,您可以根据需要选择以下任何框架。
如果您需要创建自定义容器来部署复杂的模型,并且需要对 SageMaker 预建容器不支持的框架进行扩展,请使用适用于 Python 的低级Amazon SDK (Boto 3)
将 EI 与 SageMaker 内置算法一起使用
目前,图像分类-MXNet和物体检测-MXNet内置算法支持 EI。有关将图像分类算法与 EI 结合使用的示例,请参阅端到端多类别图像分类示例
EI 示例笔记本
以下示例笔记本提供了在以下情况下使用 EI 的示例 SageMaker: