调用无服务器端点 - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

调用无服务器端点

要使用无服务器端点执行推理,必须向端点发送 HTTP 请求。您可以使用 InvokeEndpointAPI 或 Amazon CLI,它们会POST请求调用您的终端节点。无服务器调用的最大请求和响应负载大小为 4 MB。对于无服务器端点:

  • 模型必须下载,服务器必须在 3 分钟内成功响应 /ping

  • 容器响应 /invocations 推理请求的超时为 1 分钟。

调用端点

以下示例使用适用于 Python 的Amazon 软件开发工具包 (Boto3) 来调用 API。InvokeEndpoint请注意,与本指南中的其他 API 调用不同InvokeEndpoint,您必须使用 SageMaker 运行时运行时作为客户端。指定以下值:

  • 对于 endpoint_name,使用要调用的服务中无服务器端点的名称。

  • 对于 content_type,在请求正文中指定输入数据的 MIME 类型(例如 application/json)。

  • 对于 payload,使用您的请求负载进行推理。您的负载应该采用字节或类似文件的对象形式。

runtime = boto3.client("sagemaker-runtime") endpoint_name = "<your-endpoint-name>" content_type = "<request-mime-type>" payload = <your-request-body> response = runtime.invoke_endpoint( EndpointName=endpoint_name, ContentType=content_type, Body=payload )