将 Triton 推理服务器与 Amazon SageMaker 结合使用 - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 Amazon Web Services 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

将 Triton 推理服务器与 Amazon SageMaker 结合使用

SageMaker 使客户能够通过 NVIDIA Triton 推理服务器使用自定义代码部署模型。此功能可以通过开发Triton 推理服务器容器. 这些容器包括 NVIDIA Triton 推理服务器、对常见机器学习框架的支持以及可让您在 SageMaker 上优化性能的有用环境变量。有关所有可用的 Deep Learning Containers 映像的列表,请参阅可用的 Deep Learning Containers 映像. Deep Learning Containers 映像通过安全补丁进行维护和定期更新。

您可以将 Triton 推理服务器容器与 SageMaker Python SDK 结合使用,就像使用 SageMaker 模型中的任何其他容器一样。但是,使用 SageMaker Python SDK 是可选的。你可以将 Triton 推理服务器容器与Amazon CLI和Amazon SDK for Python (Boto3).

有关 NVIDIA Triton 推理服务器的更多信息,请参阅Triton 文档.

推理

为了进行推理,您可以将训练有素的机器学习模型与 Triton 推理服务器结合使用,在 SageMaker 上部署推理作业。

Triton 推理服务器容器的一些关键功能包括:

  • Support 多个框架:Triton 可用于部署来自所有主要机器学习框架的模型。Triton 支持 TensorFlow GraphdeF 和 SavedModel、ONNX、PyTorch TorchScript、TensorRT 和自定义 Python /C++ 模型格式。

  • 模拟管道:Triton 模型合奏代表一个模型的管道,具有前/后处理逻辑以及它们之间输入和输出张量的连接。向整体发出单个推理请求会触发整个管道的执行。

  • 并发模型执行:同一模型的多个实例可以在同一个 GPU 或多个 GPU 上同时运行。

  • 动态批处理:对于支持批处理的模型,Triton 有多个内置的调度和批处理算法,这些算法将单个推理请求结合在一起,以提高推理吞吐量。这些调度和批处理决策对于请求推断的客户来说是透明的。

  • 多样化的 CPU 和 GPU 支持:这些模型可以在 CPU 或 GPU 上执行,以获得最大的灵活性并支持异构计算要求。

您需要做什么?

我想在 SageMaker 中部署我训练有素的 PyTorch 模型。

有关示例 Jupyter 笔记本,请参阅使用 Triton 推理服务器示例部署 PyTorch Resnet50 模型.

我想在 SageMaker 中部署我训练有素的 Huging Face 模型。

有关示例 Jupyter 笔记本,请参阅使用 Triton 推理服务器示例部署 PyTorch BERT 模型.