监控无服务器端点 - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

监控无服务器端点

要监控您的无服务器终端节点,您可以使用 Amazon CloudWatch 警报。 CloudWatch 是一项从您的 Amazon 应用程序和资源中实时收集指标的服务。警报可在收集指标时监控这些指标,并使您能够预先指定阈值以及在违反该阈值时要采取的操作。例如,如果您的终端节点突破了错误阈值,您的 CloudWatch 警报可能会向您发送通知。通过设置 CloudWatch 警报,您可以了解终端的性能和功能。有关 CloudWatch 警报的更多信息,请参阅亚马逊 CloudWatch 用户指南中的使用亚马逊 CloudWatch 警报

使用监控 CloudWatch

以下指标是无服务器端点指标的详尽列表。以下未列出的任何指标都不会为无服务器端点发布。有关以下指标的信息,请参阅 SageMaker 使用亚马逊监控亚马逊 CloudWatch

常见端点指标

这些 CloudWatch 指标与为实时终端节点发布的指标相同。

OverheadLatency指标会跟踪所有 SageMaker 添加的额外延迟,其中包括为无服务器终端节点启动新计算资源的冷启动时间。与按需无服务器端点相比,使用 Provision Concurrency 的无服务器端点的 OverheadLatency 通常要少得多。

无服务器端点还可以使用 Invocations4XXErrorsInvocations5XXErrorsInvocationsModelLatencyModelSetupTimeMemoryUtilization 指标。要了解有关这些指标的更多信息,请参阅SageMaker 端点调用指标

常见的无服务器端点指标

这些 CloudWatch 指标是针对按需无服务器端点和具有预配置并发的无服务器端点发布的。

指标名称 描述 单位/统计数据
ServerlessConcurrentExecutionsUtilization 并发执行数除以最大并发数。

单位:无

有效统计数据:Average、Max、Min

使用预置并发的无服务器端点的指标

这些 CloudWatch 指标是针对具有预配置并发的无服务器端点发布的。

指标名称 描述 单位/统计数据
ServerlessProvisionedConcurrencyExecutions 由端点处理的并发执行数。

单位:计数

有效统计数据:Average、Max、Min

ServerlessProvisionedConcurrencyUtilization 并发执行数除以分配的预置并发。

单位:无

有效统计数据:Average、Max、Min

ServerlessProvisionedConcurrencyInvocations 由预置并发处理的 InvokeEndpoint 请求数。

单位:计数

有效统计数据:Average、Max、Min

ServerlessProvisionedConcurrencySpilloverInvocations 未由预置并发处理而由按需无服务器推理处理的 InvokeEndpoint 请求数。

单位:计数

有效统计数据:Average、Max、Min

日志

如果您想监控终端节点中的日志以进行调试或进度分析,则可以使用 Amazon CloudWatch Logs。 SageMaker提供的可用于无服务器端点的日志组是。/aws/sagemaker/Endpoints/[EndpointName]有关使用 “ CloudWatch 登录” 的更多信息 SageMaker,请参阅使用亚马逊记录亚马逊 SageMaker 活动 CloudWatch。要了解有关 CloudWatch 日志的更多信息,请参阅什么是 Amazon CloudWatch 日志?Amazon CloudWatch 日志用户指南中。