监控异步终端节点 - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 Amazon Web Services 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

监控异步终端节点

您可以使用 Amazon CloudWatch 监控 SageMaker,此工具可收集原始数据,并将数据处理为便于读取的近乎实时的指标。借助 Amazon CloudWatch,您可以访问历史信息,并更好地了解您的 Web 应用程序或服务的执行情况。有关 Amazon CloudWatch 的更多信息,请参阅什么是 Amazon CloudWatch?

使用 CloudWatch 进行监控

以下衡量指标是异步终端节点指标的详尽列表。如果端点启用了异步推理,则不会发布下面未列出的任何指标。此类指标包括(但不限于):

  • 间接费用延迟

  • 调用

  • InvocationsPerInstance

常见终端节点指标

这些指标与当前为实时终端节点发布的指标相同。有关 Amazon CloudWatch 中的其他指标的更多信息,请参阅使用 Amazon CloudWatch 监控 SageMaker.

指标名称 描述 单位/统计信息

Invocation4XXErrors

模型在其中返回 4xx HTTP 响应代码的 请求的数量。对于每个 4xx 响应,发送 1;否则,发送 0。

单位:无

有效统计数据:Average、Sum

Invocation5XXErrors

模型在其中返回 5xx HTTP 响应代码的 InvokeEndpoint 请求的数量。对于每个 5xx 响应,发送 1;否则,发送 0。

单位:无

有效统计数据:Average、Sum

ModelLatency

从 SageMaker 观察到的模型做出响应所用的时间间隔。此时间间隔包括发送请求以及从模型容器提取响应的本地通信时间,以及在容器中完成推理所用的时间。

单位:微秒

有效统计数据:A、Sum、Min、Max、Max、Sample Count

异步推理终端节点指标

这些指标是针对启用异步推理的端点发布的。以下衡量指标与EndpointName维度:

指标名称 描述 单位/统计信息

ApproximateBacklogSize

终端节点队列中当前正在处理或尚待处理的项目数。

单位:计数

有效统计数据:平均值、最大值、最小值

ApproximateBacklogSizePerInstance

队列中的项目数除以终端节点后面的实例数。此指标主要用于为启用异步的终端设置应用程序自动缩放。

单位:计数

有效统计数据:平均值、最大值、最小值

ApproximateAgeOfOldestRequest

队列中最早的请求的时间。

单位:秒

有效统计数据:平均值、最大值、最小值

以下衡量指标与EndpointNameVariantName维度:

指标名称 描述 单位/统计信息

RequestDownloadFailures

当由于下载 Amazon S3 的请求时出现问题而导致推断失败时。

单位:计数

有效统计数据:总计

ResponseUploadFailures

当由于向 Amazon S3 上传响应时出现问题而导致推断失败时。

单位:计数

有效统计数据:总计

NotificationFailures

发布通知时出现问题。

单位:计数

有效统计数据:总计

RequestDownloadLatency

下载请求负载的总时间。

单位:微秒

有效统计数据:A、Sum、Min、Max、Max、Sample Count

ResponseUploadLatency

上载响应负载的总时间。

单位:微秒

有效统计数据:A、Sum、Min、Max、Max、Sample Count

ExpiredRequests

队列中由于达到指定的请求 TTL 而失败的请求数。

单位:计数

有效统计数据:总计

InvocationFailures

如果调用由于任何原因失败。

单位:计数

有效统计数据:总计

InvocationsProcesssed

终端节点处理的异步调用数。

单位:计数

有效统计数据:总计

TimeInBacklog

处理请求前排队的总时间。这不包括实际处理时间(即下载时间、上传时间、模型延迟)。

单位:微秒

有效统计数据:A、Sum、Min、Max、Max、Sample Count

TotalProcessingTime

SageMaker 接收推理请求的时间到请求完成处理的时间。这包括积压时间以及上传和发送响应通知的时间(如果有)。

单位:毫秒

有效统计数据:A、Sum、Min、Max、Max、Sample Count

Amazon SageMaker 异步推理还包括主机级指标。有关主机级度量的信息,请参阅SageMaker 作业和终端节点指标.

Logs

除了模型容器日志,您还可以获得用于跟踪和调试推理请求的新平台日志。

新日志将在终端日志组下发布:

/aws/sagemaker/Endpoints/[EndpointName]

日志流名称包括:

[production-variant-name]/[instance-id]/data-log.

日志行包含请求的推断 ID,以便可以轻松地将错误映射到特定请求。