本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
异步推理
Amazon SageMaker 异步推理是一种将传入 SageMaker 的请求排队并异步处理的功能。此选项非常适合具有较大负载(最大 1GB)、较长处理时间(最长 1 小时)以及接近实时延迟要求的请求。通过异步推理,您可以在没有请求要处理时自动将实例计数缩放到零,这样您只需在端点处理请求时才付费,从而节省成本。
工作方式
创建异步推理端点的方法类似于创建实时推理端点。您可以使用现有 SageMaker 模型,只需要在使用 CreateEndpointConfig
API 中的EndpointConfig
字段创建端点配置时指定AsyncInferenceConfig
对象。下图显示了异步推理的架构和工作流。
要调用终端节点,您需要将请求负载放在 Amazon S3 中。作为InvokeEndpointAsync
请求的一部分,您还需要提供指向此负载的指针。调用后,将请求 SageMaker 排队等候处理,并返回标识符和输出位置作为响应。处理完成后,将结果 SageMaker 放在 Amazon S3 位置。您可以选择通过 Amazon SNS 接收成功或出错通知。有关如何设置异步通知的更多信息,请参阅检查预测结果。
注意
端点配置中存在异步推理配置 (AsyncInferenceConfig
) 对象意味着端点只能接收异步调用。
怎样入门?
如果您是首次使用 Amazon SageMaker 异步推理,我们建议您执行以下操作:
-
阅读 异步端点操作,了解有关如何创建、调用、更新和删除异步端点的信息。
-
浏览 aws/ amazon-sagemaker-examples
GitHub 存储库中的异步推理示例笔记本 。
请注意,如果您的端点使用本排除项页面列出的任何功能,则无法使用异步推理。