使用 Amazon SageMaker 推理推荐器推荐作业

Amazon SageMaker 推理推荐器可以提出两种类型的推荐：

推理推荐 (Default 作业类型）对推荐的实例类型运行一组负载测试。您也可以对无服务器端点进行负载测试。您只需提供模型包 Amazon 资源名称 (ARN) 即可启动此类推荐作业。推理推荐作业将在 45 分钟内完成。
端点推荐（Advanced 作业类型）基于自定义负载测试，您可以在其中选择所需的机器学习实例或无服务器端点、提供自定义流量模式，并根据生产要求提供延迟和吞吐量要求。根据设置的作业持续时间和测试的推理配置总数，此作业平均需要 2 小时才能完成。

两种类型的推荐都使用相同的方法 APIs 来创建、描述和停止作业。输出是实例配置推荐的列表，其中包含相关的环境变量、成本、吞吐量和延迟指标。推荐作业还提供初始实例计数，可以用它来配置自动扩缩策略。要区分这两种类型的作业，在通过 SageMaker AI 控制台或创建任务时 APIs，请指定Default创建初步终端节点建议以及自定义Advanced负载测试和端点建议。

注意

您不需要在自己的工作流中执行两种类型的推荐作业。您可以独立完成。

Inference Recommender 还可以为您提供潜在实例的列表，或者针对模型部署的成本、吞吐量和延迟进行优化的前五种实例类型，以及置信度分数。您可以在部署模型时选择这些实例。Inference Recommender 会自动针对您的模型执行基准测试，以便提供潜在实例。由于这些都是初步推荐，因此，我们建议您运行更多的实例推荐作业，以获得更准确的结果。要查看潜在实例，请转到您的 SageMaker AI 模型详细信息页面。有关更多信息，请参阅即时获取潜在实例。

主题

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

先决条件

即时获取潜在实例