推荐作业 - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

推荐作业

Amazon SageMaker Inference Recommender 可以执行两种类型的推荐:

  1. 推理推荐 (Default 作业类型)对推荐的实例类型运行一组负载测试。您也可以对无服务器端点进行负载测试。您只需提供模型包 Amazon 资源名称 (ARN) 即可启动此类推荐作业。推理推荐作业将在 45 分钟内完成。

  2. 端点推荐(Advanced 作业类型)基于自定义负载测试,您可以在其中选择所需的机器学习实例或无服务器端点、提供自定义流量模式,并根据生产要求提供延迟和吞吐量要求。根据设置的作业持续时间和测试的推理配置总数,此作业平均需要 2 小时才能完成。

两种类型的推荐都使用相同的 API 来创建、描述和停止作业。输出是实例配置推荐的列表,其中包含相关的环境变量、成本、吞吐量和延迟指标。推荐作业还提供初始实例计数,可以用它来配置自动扩缩策略。要区分这两种类型的作业,在通过 SageMaker 控制台或 API 创建作业时,请指定 Default 创建初步端点推荐,并指定 Advanced 以用于自定义负载测试和端点推荐。

注意

您不需要在自己的工作流中执行两种类型的推荐作业。您可以彼此独立完成。

Inference Recommender 还可以为您提供潜在实例的列表,或者针对模型部署的成本、吞吐量和延迟进行优化的前五种实例类型,以及置信度分数。您可以在部署模型时选择这些实例。Inference Recommender 会自动针对您的模型执行基准测试,以便提供潜在实例。由于这些都是初步推荐,因此,我们建议您运行更多的实例推荐作业,以获得更准确的结果。要查看潜在实例,请转至您的 SageMaker 模型详细信息页面。有关更多信息,请参阅 即时获取潜在实例