监控异步端点 - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

监控异步端点

您可以 SageMaker 使用 Amazon 进行监控 CloudWatch,Amazon 会收集原始数据并将其处理为可读的近乎实时的指标。借助 Amazon CloudWatch,您可以访问历史信息,更好地了解您的 Web 应用程序或服务的性能。有关亚马逊的更多信息 CloudWatch,请参阅什么是亚马逊 CloudWatch?

使用监控 CloudWatch

以下指标是 AWS/SageMaker 中的异步端点指标的详尽列表。如果为异步推理启用了端点,则只会发布下方列出的指标。这些指标包括(但不限于):

  • OverheadLatency

  • Invocations

  • InvocationsPerInstance

常见端点指标

这些指标与目前为实时端点发布的指标相同。有关亚马逊中其他指标的更多信息 CloudWatch,请参阅 SageMaker 使用亚马逊进行监控 CloudWatch

指标名称 描述 单位/统计数据

Invocation4XXErrors

模型在其中返回 4xx HTTP 响应代码的请求的数量。对于每个 4xx 响应,发送 1;否则,发送 0。

单位:无

有效统计数据:Average、Sum

Invocation5XXErrors

模型返回 5xx HTTP 响应代码的 InvokeEndpoint 请求数。对于每个 5xx 响应,发送 1;否则,发送 0。

单位:无

有效统计数据:Average、Sum

ModelLatency

从中可以看出,模型做出响应所花费的时间间隔 SageMaker。此时间间隔包括发送请求以及从模型容器提取响应的本地通信时间,以及在容器中完成推理所用的时间。

单位:微秒

有效统计数据:Average、Sum、Min、Max、Sample Count

异步推理端点指标

这些指标针对为异步推理启用的端点发布。通过 EndpointName 维度发布以下指标:

指标名称 描述 单位/统计数据

ApproximateBacklogSize

某个端点的队列中,当前正在处理或尚未处理的项目数。

单位:计数

有效统计数据:Average、Max、Min

ApproximateBacklogSizePerInstance

队列中的项目数除以端点后台的实例数。此指标主要用于为启用了异步的端点设置应用程序自动缩放。

单位:计数

有效统计数据:Average、Max、Min

ApproximateAgeOfOldestRequest

队列中最早请求的龄期。

单位:秒

有效统计数据:Average、Max、Min

HasBacklogWithoutCapacity

当队列中有请求但端点后台没有实例时,此指标的值是 1。所有其他时候的值为 0。在队列中收到新请求时,您可以使用此指标从零个实例开始自动缩放端点。

单位:计数

有效统计数据:Average

通过 EndpointNameVariantName 维度发布以下指标:

指标名称 描述 单位/统计数据

RequestDownloadFailures

由于从 Amazon S3 下载请求时现问题,从而导致推理失败时。

单位:计数

有效统计数据:Sum

ResponseUploadFailures

由于将响应上传到 Amazon S3 出现问题,从而导致推理失败时。

单位:计数

有效统计数据:Sum

NotificationFailures

在出现问题时发布通知。

单位:计数

有效统计数据:Sum

RequestDownloadLatency

下载请求负载的总时间。

单位:微秒

有效统计数据:Average、Sum、Min、Max、Sample Count

ResponseUploadLatency

上传响应负载的总时间。

单位:微秒

有效统计数据:Average、Sum、Min、Max、Sample Count

ExpiredRequests

队列中因达到指定 TTL 而失败的请求数。

单位:计数

有效统计数据:Sum

InvocationFailures

调用由于任何原因而失败时。

单位:计数

有效统计数据:Sum

InvocationsProcesssed

端点处理的异步调用数量。

单位:计数

有效统计数据:Sum

TimeInBacklog

请求在得到处理之前排队的总时间。这不包括实际处理时间(即下载时间、上传时间、模型延迟)。

单位:毫秒

有效统计数据:Average、Sum、Min、Max、Sample Count

TotalProcessingTime

收到推理请求的时间截止 SageMaker 到请求处理完毕的时间。这包括积压时间以及上传和发送回复通知(如果有)的时间。

单位:毫秒

有效统计数据:Average、Sum、Min、Max、Sample Count

Amazon SageMaker 异步推理还包括主机级指标。有关主机级指标的信息,请参阅SageMaker 任务和端点指标。

日志

除了在您的账户中发布到 Amazon CloudWatch 的模型容器日志外,您还可以获得用于跟踪和调试推理请求的新平台日志。

新日志发布到端点日志组下:

/aws/sagemaker/Endpoints/[EndpointName]

日志流名称包括:

[production-variant-name]/[instance-id]/data-log.

日志行包含请求的推理 ID,以便轻松地将错误与具体请求对应起来。