异步推理 - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

异步推理

Amazon SageMaker 异步推理是 SageMaker 中的一项功能,可以对传入的请求进行排队并异步处理它们。此选项非常适合具有较大负载(最大 1GB)、较长处理时间(最长 1 小时)以及接近实时延迟要求的请求。通过异步推理,您可以在没有请求要处理时自动将实例计数缩放到零,这样您只需在端点处理请求时才付费,从而节省成本。

工作方式

创建异步推理端点的方法类似于创建实时推理端点。您可以使用现有的 SageMaker 模型,只需在使用 CreateEndpointConfig API 中的 EndpointConfig 字段创建端点配置时,指定 AsyncInferenceConfig 对象。下图显示了异步推理的架构和工作流。


                异步推理的架构图显示了用户如何调用端点以及端点如何响应。

要调用端点,您需要将请求负载放在 Amazon S3 中,并在 InvokeEndpointAsync 请求中提供指向该负载的指针。在调用时,SageMaker 将请求排队以进行处理,并返回标识符和输出位置作为响应。在处理时,SageMaker 会将结果放在 Amazon S3 位置。您可以选择通过 Amazon SNS 接收成功或出错通知。有关如何设置异步通知的更多信息,请参阅检查预测结果

注意

端点配置中存在异步推理配置 (AsyncInferenceConfig) 对象意味着端点只能接收异步调用。

怎样入门?

如果您是首次使用 Amazon SageMaker 的用户,我们建议您执行以下操作:

请注意,如果您的端点使用本Exclusions页面列出的任何功能,则无法使用异步推理。