本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
在亚马逊上使用 Triton 推理服务器 SageMaker
SageMaker 允许客户使用 NVIDIA Triton 推理服务器使用自定义代码部署模型。此功能可通过开发获得Triton 推理服务器容器. 这些容器包括 NVIDIA Triton Inference Server、对常用 ML 框架的支持以及可让您优化性能的有用环境变量 SageMaker. 有关所有可用的Deep Learning Containers,请参阅可用的Deep Learning Containers ning
你可以将 Triton 推理服务器容器与 SageMaker Python SDK 就像你对待你中的任何其他容器一样 SageMaker 模型)。但是,使用 SageMaker Python 开发工具包是可选的 你可以将 Triton 推理服务器容器与Amazon CLI和Amazon SDK for Python (Boto3).
有关 NVIDIA Triton 推理服务器的更多信息,请参阅Triton 文档
推理
注意
Triton Python 后端使用共享内存 (SHMEM) 将你的代码连接到 Triton。 SageMaker 推理最多可提供 SHMEM 一半的实例内存,因此您可以使用内存更大的实例来获得更大的 SHMEM 大小。
为了进行推理,您可以将经过训练的 ML 模型与 Triton Inference Server 一起使用来部署推理作业 SageMaker.
Triton 推理服务器容器的一些关键功能是:
Support 多个框架:Triton 可用于部署来自所有主要 ML 框架的模型。海卫一对该项的支持 TensorFlow GraphDef 和 SavedModel,ONNX, PyTorch TorchScript、TensorRT 和自定义 Python/C++ 模型格式。
管道模型:Triton 模型集合代表一个模型的流水线,具有预/后处理逻辑以及它们之间的输入和输出张量的连接。对集合的单个推理请求会触发整个管道的执行。
并发执行模型:同一模型的多个实例可以在同一 GPU 或多个 GPU 上同时运行。
动态批处理:对于支持批处理的模型,Triton 有多种内置的调度和批处理算法,这些算法将单个推理请求组合在一起以提高推理吞吐量。这些调度和批处理决策对于请求推断的客户来说是透明的。
多种 CPU 和 GPU 支持:这些模型可以在 CPU 或 GPU 上执行,以最大限度地提高灵活性并支持异构计算需求。
您需要做什么?
- 我想部署我训练过的 PyTorch 模型中) SageMaker.
-
有关 Jupyter 笔记本的示例,请参阅部署您的 PyTorch 带有 Triton 推理服务器的 Resnet50 模型示例
. - 我想在里面部署我训练过的 Hugging Face 模型 SageMaker.
-
有关 Jupyter 笔记本的示例,请参阅部署您的 PyTorch 使用 Triton 推理服务器的 BERT 模型示例
.