使用 Triton 推理服务器和 Amazon AI 的资源 SageMaker

SageMaker 人工智能使客户能够在 NVIDIA Triton 推理服务器上使用自定义代码部署模型。使用以下资源学习如何将 Triton 推理服务器与 AI 配 SageMaker 合使用。

可通过开发 Triton Inference Server 容器来获得此功能。这些容器包括 NVIDIA Triton Inference Server、对常见机器学习框架的支持以及允许你优化 AI 性能的有用环境变量。 SageMaker 有关所有可用深度学习容器映像的列表，请参阅可用的深度学习容器映像。深度学习容器映像会得到维护，并定期更新安全补丁。

你可以像在 SageMaker AI 模型中使用任何其他容器一样使用 Pyt SageMaker hon SDK 的 Triton 推理服务器容器。但是，使用 SageMaker Python 开发工具包是可选的。您可以将 Triton 推理服务器容器与和一起使用。 Amazon CLI 适用于 Python (Boto3) 的 Amazon SDK

有关 NVIDIA Triton Inference Server 的更多信息，请参阅 Triton 文档。

推理

注意

Triton Python 后端使用共享内存 (SHMEM) 将你的代码连接到 Triton。 SageMaker AI Inference 最多可提供一半的实例内存作为 SHMEM，因此您可以使用具有更多内存的实例来处理更大的 SHMEM 大小。

为了进行推理，您可以将经过训练的 ML 模型与 Triton 推理服务器配合使用，使用 AI 部署推理作业。 SageMaker

Triton Inference Server 容器的一些关键特征包括：

支持多个框架：Triton 可用于部署所有主要机器学习框架中的模型。Triton 支持 TensorFlow GraphDef 和 SavedModel、ONNX、、T PyTorch TorchScript ensorrt 和自定义 Python/C++ 模型格式。
模型流水线：Triton 模型集合表示一个模型的流水线，具有 pre/post 处理逻辑以及它们之间的输入和输出张量连接。向一个集合提出一个推理请求，就会触发整个管道的执行。
并行模型执行：同一模型的多个实例可以在同一 GPU 上同时运行，也可以在多个 GPU 上同时运行 GPUs。
动态批处理：对于支持批处理的模型，Triton 有多种内置的计划和批处理算法，这些算法可以将单个推理请求组合在一起以提高推理吞吐量。这些计划和批处理决策对请求推理的客户端是透明的。
支持多样的 CPU 和 GPU：这些模型可以在 CPUs 或上执行，以 GPUs 获得最大的灵活性，并支持异构计算需求。

您需要做什么？

我想在 SageMaker AI 中部署经过训练的 PyTorch 模型。: 有关 Jupyter 笔记本的示例，请参阅使用 Triton 推理服务器部署你的 R PyTorch esnet50 模型示例。
我想在人工智能中部署经过训练的 Hugging Face 模型 SageMaker 。: 有关 Jupyter 笔记本的示例，请参阅使用 Triton 推理服务器部署你的 PyTorch BERT 模型示例。

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

TensorFlow

API 参考