监控异步端点 - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

监控异步端点

您可以使用 Amazon CloudWatch 监控 SageMaker,此工具可收集原始数据并将其处理为易读的近实时指标。借助 Amazon CloudWatch,您可以访问历史信息,并能够更好地了解您的 Web 应用程序或服务的执行情况。有关 Amazon CloudWatch 的更多信息,请参阅什么是 Amazon CloudWatch?

使用 CloudWatch 进行监控

以下指标是 AWS/SageMaker 中的异步端点指标的详尽列表。如果为异步推理启用了端点,则只会发布下方列出的指标。这些指标包括(但不限于):

  • OverheadLatency

  • 调用

  • InvocationsPerInstance

常见端点指标

这些指标与目前为实时端点发布的指标相同。有关 Amazon CloudWatch 中其他指标的更多信息,请参阅使用 Amazon CloudWatch 监控 SageMaker

指标名称 描述 单位/统计数据

Invocation4XXErrors

模型在其中返回 4xx HTTP 响应代码的请求的数量。对于每个 4xx 响应,发送 1;否则,发送 0。

单位:无

有效统计数据:Average、Sum

Invocation5XXErrors

模型在其中返回 5xx HTTP 响应代码的 InvokeEndpoint 请求的数量。对于每个 5xx 响应,发送 1;否则,发送 0。

单位:无

有效统计数据:Average、Sum

ModelLatency

从 SageMaker 角度观察到的模型做出响应所需的时间间隔。此时间间隔包括发送请求以及从模型容器提取响应的本地通信时间,以及在容器中完成推理所用的时间。

单位:微秒

有效统计数据:Average、Sum、Min、Max、Sample Count

异步推理端点指标

这些指标针对为异步推理启用的端点发布。通过 EndpointName 维度发布以下指标:

指标名称 描述 单位/统计数据

ApproximateBacklogSize

某个端点的队列中,当前正在处理或尚未处理的项目数。

单位:计数

有效统计数据:Average、Max、Min

ApproximateBacklogSizePerInstance

队列中的项目数除以端点后台的实例数。此指标主要用于为启用了异步的端点设置应用程序自动缩放。

单位:计数

有效统计数据:Average、Max、Min

ApproximateAgeOfOldestRequest

队列中最早请求的龄期。

单位:秒

有效统计数据:Average、Max、Min

HasBacklogWithoutCapacity

当队列中有请求但端点后台没有实例时,此指标的值是 1。所有其他时候的值为 0。在队列中收到新请求时,您可以使用此指标从零个实例开始自动缩放端点。

单位:计数

有效统计数据:Average

通过 EndpointNameVariantName 维度发布以下指标:

指标名称 描述 单位/统计数据

RequestDownloadFailures

由于从 Amazon S3 下载请求时现问题,从而导致推理失败时。

单位:计数

有效统计数据:Sum

ResponseUploadFailures

由于将响应上传到 Amazon S3 出现问题,从而导致推理失败时。

单位:计数

有效统计数据:Sum

NotificationFailures

在出现问题时发布通知。

单位:计数

有效统计数据:Sum

RequestDownloadLatency

下载请求负载的总时间。

单位:微秒

有效统计数据:Average、Sum、Min、Max、Sample Count

ResponseUploadLatency

上传响应负载的总时间。

单位:微秒

有效统计数据:Average、Sum、Min、Max、Sample Count

ExpiredRequests

队列中因达到指定 TTL 而失败的请求数。

单位:计数

有效统计数据:Sum

InvocationFailures

调用由于任何原因而失败时。

单位:计数

有效统计数据:Sum

InvocationsProcesssed

端点处理的异步调用数量。

单位:计数

有效统计数据:Sum

TimeInBacklog

请求在得到处理之前排队的总时间。这不包括实际处理时间(即下载时间、上传时间、模型延迟)。

单位:毫秒

有效统计数据:Average、Sum、Min、Max、Sample Count

TotalProcessingTime

SageMaker 收到推理请求到请求完成处理的时间。这包括积压时间以及上传和发送回复通知(如果有)的时间。

单位:毫秒

有效统计数据:Average、Sum、Min、Max、Sample Count

Amazon SageMaker 异步推理还包括主机级别的指标。有关主机级别指标的信息,请参阅 SageMaker 作业和端点指标

日志

在发布到您账户中的 Amazon CloudWatch 的模型容器日志之外,您还可以获得一个用于跟踪和调试推理请求的新平台日志。

新日志发布到端点日志组下:

/aws/sagemaker/Endpoints/[EndpointName]

日志流名称包括:

[production-variant-name]/[instance-id]/data-log.

日志行包含请求的推理 ID,以便轻松地将错误与具体请求对应起来。