SageMaker 通过亚马逊监控亚马逊的指标 CloudWatch - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

SageMaker 通过亚马逊监控亚马逊的指标 CloudWatch

您可以 SageMaker 使用 Amazon 监控亚马逊 CloudWatch,亚马逊会收集原始数据并将其处理为可读的近乎实时的指标。这些统计数据保存15个月。借助它们,您可以访问历史信息,更好地了解您的 Web 应用程序或服务的性能。但是,Amazon CloudWatch 控制台将搜索范围限制在过去 2 周内更新的指标。此限制可确保显示您命名空间中最新的作业。

要列出指标图形而不使用搜索,请在源视图中指定其确切名称。还可以设置特定阈值监视警报,在达到对应阈值时发送通知或采取行动。有关更多信息,请参阅 Amazon CloudWatch 用户指南

SageMaker 端点调用指标

AWS/SageMaker命名空间包括对的调用的以下请求指标 InvokeEndpoint

指标按 1 分钟一次的频率提供。

下图显示了 SageMaker 终端节点如何与 Amazon SageMaker 运行时API交互。从向端点发送请求到收到响应之间的总时间长度取决于以下三个组成部分。

  • 网络延迟 — 从向 SageMaker 运行时发出请求到收到回复所花费的时间API。

  • 开销延迟 — 将请求从模型容器传输到模型容器并将响应传输回 SageMaker 运行时所花费的时间API。

  • 模型延迟 – 模型容器处理请求并返回响应所花费的时间。

在显示总延迟的插图中,提供了网络、开销和模型延迟的总和。

有关总延迟的更多信息,请参阅负载测试 Amazon SageMaker 实时推理终端节点的最佳实践。有关 CloudWatch 指标保留多长时间的信息,请参阅 Amazon CloudWatch API 参考GetMetricStatistics中的。

端点调用指标

指标 描述
ConcurrentRequestsPerCopy

推理组件收到的并发请求数,按推理组件的每个副本进行标准化。

有效统计数据:最小值、最大值

ConcurrentRequestsPerModel

模型收到的并发请求数。

有效统计数据:最小值、最大值

Invocation4XXErrors

模型返回 4xx HTTP 响应代码的InvokeEndpoint请求数。对于每个 4xx 响应,发送 1;否则,发送 0。

单位:无

有效统计数据:Average、Sum

Invocation5XXErrors

模型返回 5xx HTTP 响应代码的InvokeEndpoint请求数。对于每个 5xx 响应,发送 1;否则,发送 0。

单位:无

有效统计数据:Average、Sum

InvocationModelErrors

未导致 2XX HTTP 响应的模型调用请求的数量。这包括 4XX/5XX 状态码、低级套接字错误、格式HTTP错误的响应和请求超时。对于每个错误响应,发送 1;否则,发送 0。

单位:无

有效统计数据:Average、Sum

Invocations

发送到模型端点的 InvokeEndpoint 请求数量。

要获取发送到模型端点的请求总数,请使用 Sum 统计数据。

单位:无

有效统计数据:Sum

InvocationsPerCopy

由推理组件的每个副本标准化的调用次数。

有效统计数据:Sum

InvocationsPerInstance

发送到模型的调用次数,按InstanceCount每个调用进行标准化 ProductionVariant。1/ 作为每个请求的numberOfInstances值发送。 numberOfInstances是请求时终端节点 ProductionVariant 后面的活动实例数。

单位:无

有效统计数据:Sum

ModelLatency

模型响应 SageMaker 运行时API请求所用的时间间隔。此间隔包括发送请求和从模型容器获取响应所花费的本地通信时间。它还包括在容器中完成推理所花费的时间。

单位:微秒

有效统计数据:Average、Sum、Min、Max、Sample Count

ModelSetupTime

为无服务器端点启动新的计算资源所花费的时间。时间可能会有所不同,具体取决于模型大小、下载模型所需的时间以及容器的启动时间。

单位:微秒

有效统计数据:Average、Min、Max、Sample Count、Percentiles

OverheadLatency

按 SageMaker 管理费用回应客户请求所花费的时间间隔。此间隔是从 SageMaker 收到请求到向客户端返回响应的时间减去ModelLatency。开销延迟可能会由于多种因素发生而变化,包括请求和响应负载大小、请求频率以及请求的身份验证/授权。

单位:微秒

有效统计数据:Average、Sum、Min、Max、Sample Count

端点调用指标的维度

维度 描述
EndpointName, VariantName

针对指定端点和变体的 ProductionVariant 筛选端点调用指标。

InferenceComponentName

筛选推理组件调用指标。

SageMaker 推理组件指标

/aws/sagemaker/InferenceComponents命名空间包括以下指标,这些指标来自 InvokeEndpoint对托管推理组件的端点的调用。

指标按 1 分钟一次的频率提供。

指标 描述
CPUUtilizationNormalized

推理组件的每个副本报告的CPUUtilizationNormalized指标值。该值的范围介于 0%-100% 之间。如果您在推理组件副本的设置中设置NumberOfCpuCoresRequired参数,则该指标会显示预留的利用率。否则,该指标会显示超过限制的利用率。

GPUMemoryUtilizationNormalized

推理组件的每个副本报告的GPUMemoryUtilizationNormalized指标值。

GPUUtilizationNormalized

推理组件的每个副本报告的GPUUtilizationNormalized指标值。如果您在推理组件副本的设置中设置NumberOfAcceleratorDevicesRequired参数,则该指标会显示预留的利用率。否则,该指标会显示超过限制的利用率。

MemoryUtilizationNormalized

推理组件的每个副本MemoryUtilizationNormalized报告的值。如果您在推理组件副本的设置中设置MinMemoryRequiredInMb参数,则指标会显示预留的利用率。否则,这些指标会显示超过限制的利用率。

推理组件指标的维度

维度 描述
InferenceComponentName

筛选推理组件指标。

SageMaker 多模型端点指标

AWS/SageMaker命名空间包括以下模型从对的调用加载指标 InvokeEndpoint

指标按 1 分钟一次的频率提供。

有关 CloudWatch 指标保留多长时间的信息,请参阅 Amazon CloudWatch API 参考GetMetricStatistics中的。

多模型端点模型加载指标

指标 描述
ModelLoadingWaitTime

调用请求为运行推理而等待目标模型下载、加载或两者兼而有之的时间间隔。

单位:微秒

有效统计数据:Average、Sum、Min、Max、Sample Count

ModelUnloadingTime

通过容器的UnloadModelAPI调用卸载模型所花费的时间间隔。

单位:微秒

有效统计数据:Average、Sum、Min、Max、Sample Count

ModelDownloadingTime

从 Amazon Simple Storage Service (Amazon S3) 下载模型所花费的时间间隔。

单位:微秒

有效统计数据:Average、Sum、Min、Max、Sample Count

ModelLoadingTime

通过容器的LoadModelAPI调用加载模型所花费的时间间隔。

单位:微秒

有效统计数据:Average、Sum、Min、Max、Sample Count

ModelCacheHit

发送到已加载模型的多模型端点的 InvokeEndpoint 请求数。

“Average”统计数据显示已加载模型的请求的比率。

单位:无

有效统计数据:Average、Sum、Sample Count

多模型端点模型加载指标的维度

维度 描述
EndpointName, VariantName

针对指定端点和变体的 ProductionVariant 筛选端点调用指标。

/aws/sagemaker/Endpoints命名空间包括调用的以下实例指标。 InvokeEndpoint

指标按 1 分钟一次的频率提供。

有关 CloudWatch 指标保留多长时间的信息,请参阅 Amazon CloudWatch API 参考GetMetricStatistics中的。

多模型端点模型实例指标

指标 描述
LoadedModelCount

多模型端点的容器中加载的模型数。此指标是按实例发射的。

周期为 1 分钟的“Average”统计数据指示每个实例加载的平均模型数。

“Sum”统计数据指示在端点中的所有实例上加载的模型总数。

此指标跟踪的模型不一定是唯一的,因为可能在端点的多个容器中加载模型。

单位:无

有效统计数据:Average、Sum、Min、Max、Sample Count

多模型端点模型加载指标的维度

维度 描述
EndpointName, VariantName

针对指定端点和变体的 ProductionVariant 筛选端点调用指标。

SageMaker 任务和终端节点指标

/aws/sagemaker/ProcessingJobs/aws/sagemaker/TrainingJobs/aws/sagemaker/TransformJobs、和/aws/sagemaker/Endpoints命名空间包括训练作业和终端节点实例的以下指标。

指标按 1 分钟一次的频率提供。

注意

Amazon CloudWatch 支持高分辨率的自定义指标,其最佳分辨率为 1 秒。但是,分辨率越高, CloudWatch 指标的寿命越短。对于 1 秒频率分辨率,这些 CloudWatch 指标的可用时间为 3 小时。有关分辨率和 CloudWatch 指标寿命的更多信息,请参阅GetMetricStatisticsAmazon CloudWatch API 参考》。

提示

要以更精细的分辨率分析您的训练作业,精度低至 100 毫秒(0.1 秒),并将训练指标无限期存储在 Amazon S3 中以便随时进行自定义分析,请考虑使用 Amazon Debugger。 SageMaker SageMaker Debugger 提供内置规则来自动检测常见的训练问题。它可以检测硬件资源利用率问题(例如CPUGPU、和 I/O 瓶颈)。它还可以检测非收敛模型问题(例如过度拟合、梯度消失和张量爆炸)。 SageMaker 调试器还通过 Studio Classic 及其分析报告提供可视化效果。要探索调试器可视化效果,请参阅 D SageMaker ebugger Insights 仪表板演练调试器分析报告演练使用客户端库分析数据。SMDebug

处理作业、训练作业、批量转换作业和端点实例指标

指标 描述
CPUReservation

容器在实例上CPUs预留的总和。该值的范围介于 0%-100% 之间。在推理组件的设置中,您可以使用NumberOfCpuCoresRequired参数设置CPU预留。例如,如果保留了 4 CPUs 和 2,则该CPUReservation指标为 50%。

CPUUtilization 每个内CPU核利用率的总和。每个核心范围的CPU利用率为 0—100。例如,如果有四个CPUs,则CPUUtilization范围为 0% — 400%。对于处理作业,该值为实例上处理容器的CPU利用率。

对于训练作业,该值为实例上算法容器的CPU利用率。

对于批处理转换作业,该值为实例上转换容器的CPU利用率。

对于端点变体,该值是实例上主容器和补充容器的CPU使用率之和。

注意

对于多实例作业,每个实例都会报告CPU利用率指标。但是,中的默认视图 CloudWatch 显示了所有实例的平均CPU利用率。

单位:百分比

CPUUtilizationNormalized

每个内CPU核利用率的归一化总和。该值的范围介于 0%-100% 之间。例如,如果有四个CPUs,CPUUtilization指标为 200%,则该CPUUtilizationNormalized指标为 50%。

DiskUtilization

实例上的容器所使用的磁盘空间的百分比。此值范围为 0%–100%。批量转换作业不支持此指标。

对于处理作业,该值是实例上的处理容器的磁盘空间利用率。

对于训练作业,该值是实例上的算法容器的磁盘空间利用率。

对于端点变体,该值是实例上的主容器和辅助容器的磁盘空间利用率的总和。

单位:百分比

注意

对于多实例作业,每个实例都会报告磁盘利用率指标。但是,中的默认视图 CloudWatch 显示了所有实例的平均磁盘利用率。

GPUMemoryUtilization

实例上容器使用的GPU内存百分比。值范围为 0—100,并乘以数字。GPUs例如,如果有四个GPUs,则GPUMemoryUtilization范围为 0% — 400%。

对于处理作业,该值为实例上处理容器的GPU内存利用率。

对于训练作业,该值为实例上算法容器的GPU内存利用率。

对于批处理转换作业,该值为实例上转换容器的GPU内存利用率。

对于端点变体,该值是实例上主容器和补充容器的GPU内存使用率之和。

注意

对于多实例作业,每个实例都会报告GPU内存利用率指标。但是,中的默认视图 CloudWatch 显示了所有实例的平均GPU内存使用率。

单位:百分比

GPUMemoryUtilizationNormalized

实例上容器使用的GPU内存的标准化百分比。该值的范围介于 0%-100% 之间。例如,如果有四个GPUs,GPUMemoryUtilization指标为 200%,则该GPUMemoryUtilizationNormalized指标为 50%。

GPUReservation

容器在实例上GPUs预留的总和。该值的范围介于 0%-100% 之间。在推理组件的设置中,您可以通过以下方式设置GPU预留。NumberOfAcceleratorDevicesRequired例如,如果有 4 个GPUs和 2 个被预留,则该GPUReservation指标为 50%。

GPUUtilization

实例上容器使用的GPU单位百分比。该值的范围可以介于 0—100 之间,并乘以的数量。GPUs例如,如果有四个GPUs,则GPUUtilization范围为 0% — 400%。

对于处理作业,该值为实例上处理容器的GPU利用率。

对于训练作业,该值为实例上算法容器的GPU利用率。

对于批处理转换作业,该值为实例上转换容器的GPU利用率。

对于端点变体,该值是实例上主容器和补充容器的GPU使用率之和。

注意

对于多实例作业,每个实例都会报告GPU利用率指标。但是,中的默认视图 CloudWatch 显示了所有实例的平均GPU利用率。

单位:百分比

GPUUtilizationNormalized

实例上容器使用的GPU单位的标准化百分比。该值的范围介于 0%-100% 之间。例如,如果有四个GPUs,GPUUtilization指标为 200%,则该GPUUtilizationNormalized指标为 50%。

MemoryReservation

容器在实例上预留的内存总和。该值的范围介于 0%-100% 之间。在推理组件的设置中,您可以使用MinMemoryRequiredInMb参数设置内存预留。例如,如果一个 32 GiB 的实例预留了 1024 MB,则该MemoryReservation指标为 29.8%。

MemoryUtilization

实例上的容器所使用的内存的百分比。此值范围为 0%–100%。

对于处理作业,该值是实例上的处理容器的内存利用率。

对于训练作业,该值是实例上的算法容器的内存利用率。

对于批量转换作业,该值是实例上的转换容器的内存利用率。

对于端点变体,该值是实例上的主容器和辅助容器的内存利用率的总和。

单位:百分比

注意

对于多实例作业,每个实例都会报告内存利用率指标。但是,中的默认视图 CloudWatch 显示了所有实例的平均内存使用率。

处理作业、训练作业和批量转换作业实例指标的维度

维度 描述
Host

对于处理作业,该维度的值具有格式 [processing-job-name]/algo-[instance-number-in-cluster]。使用此维度可筛选指定处理作业和实例的实例指标。此维度格式仅存在于 /aws/sagemaker/ProcessingJobs 命名空间中。

对于训练作业,该维度的值具有格式 [training-job-name]/algo-[instance-number-in-cluster]。使用此维度可筛选指定训练作业和实例的实例指标。此维度格式仅存在于 /aws/sagemaker/TrainingJobs 命名空间中。

对于批量转换作业,该维度的值的格式为 [transform-job-name]/[instance-id]。使用此维度可筛选指定批量转换作业和实例的实例指标。此维度格式仅存在于 /aws/sagemaker/TransformJobs 命名空间中。

SageMaker 推理推荐者作业指标

/aws/sagemaker/InferenceRecommendationsJobs 命名空间包括推理推荐系统作业的以下指标。

Inference Recommender 指标

指标 描述
ClientInvocations

Inference Recommender 观察到的发送到模型端点的 InvokeEndpoint 请求数。

单位:无

有效统计数据:Sum

ClientInvocationErrors

Inference Recommender 观察到的失败的 InvokeEndpoint 请求数。

单位:无

有效统计数据:Sum

ClientLatency

Inference Recommender 观察到的从发送 InvokeEndpoint 调用到收到响应所花费的时间间隔。请注意,时间以毫秒为单位,而 ModelLatency 端点调用指标以微秒为单位。

单位:毫秒

有效统计数据:Average、Sum、Min、Max、Sample Count、Percentiles

NumberOfUsers

向模型端点发送 InvokeEndpoint 请求的并发用户数。

单位:无

有效统计数据:Max、Min、Average

Inference Recommender 作业指标的维度

维度 描述
JobName

筛选指定 Inference Recommender 作业的 Inference Recommender 作业指标。

EndpointName

筛选指定端点的 Inference Recommender 作业指标。

SageMaker Ground Truth 指标

Ground Truth 指标

指标 描述
ActiveWorkers

专有工作团队中的一名活跃工作人员已提交、发布或拒绝了任务。要获取活跃工作人员的总数,请使用 Sum 统计数据。Ground Truth 会尝试将每个单独ActiveWorkers的事件交付一次。如果此交付不成功,则此指标可能不会报告在职员工的总数。

单位:无

有效统计数据:Sum、Sample Count

DatasetObjectsAutoAnnotated

在标注作业中自动注释的数据集对象数。此指标仅在启用自动标记时发出。要查看标注作业进度,请使用 Max 指标。

单位:无

有效统计数据:Max

DatasetObjectsHumanAnnotated

在标注作业中人工注释的数据集对象数。要查看标注作业进度,请使用 Max 指标。

单位:无

有效统计数据:Max

DatasetObjectsLabelingFailed

在标注作业中未能标记的数据集对象数。要查看标注作业进度,请使用 Max 指标。

单位:无

有效统计数据:Max

JobsFailed

单个标注作业失败。要获取失败的标注作业总数,请使用 Sum 统计数据。

单位:无

有效统计数据:Sum、Sample Count

JobsSucceeded

单个标注作业成功。要获取成功的标注作业总数,请使用 Sum 统计数据。

单位:无

有效统计数据:Sum、Sample Count

JobsStopped

单个标注作业已停止。要获取停止的标注作业总数,请使用 Sum 统计数据。

单位:无

有效统计数据:Sum、Sample Count

TasksAccepted

工作人员接受了单个任务。要获取工作人员接受的任务总数,请使用 Sum 统计数据。Ground Truth 会尝试将每个单独的 TaskAccepted 事件交付一次。如果此交付不成功,则此指标可能不会报告已接受的任务总数。

单位:无

有效统计数据:Sum、Sample Count

TasksDeclined

工作人员拒绝了单个任务。要获取工作人员拒绝的任务总数,请使用 Sum 统计数据。Ground Truth 会尝试将每个单独的 TasksDeclined 事件交付一次。如果此交付不成功,则此指标可能不会报告已拒绝的任务总数。

单位:无

有效统计数据:Sum、Sample Count

TasksReturned

返回了一个任务。要获取返回的任务总数,请使用 Sum 统计信息。Ground Truth 会尝试将每个单独的 TasksReturned 事件交付一次。如果此交付不成功,则此指标可能不会报告返回的任务总数。

单位:无

有效统计数据:Sum、Sample Count

TasksSubmitted

专有工作人员提交/完成了一项任务。要获取工作人员提交的任务总数,请使用 Sum 统计数据。Ground Truth 会尝试将每个单独的 TasksSubmitted 事件交付一次。如果此交付不成功,则此指标可能不会报告已提交的任务总数。

单位:无

有效统计数据:Sum、Sample Count

TimeSpent

专有工作人员完成任务所用的时间。此指标不包括工作人员暂停或休息的时间。Ground Truth 会尝试将每个 TimeSpent 事件交付一次。如果此交付不成功,则此指标可能不会报告所花费的总时间。

单位:秒

有效统计数据:Sum、Sample Count

TotalDatasetObjectsLabeled

在标注作业中成功标记的数据集对象数。要查看标注作业进度,请使用 Max 指标。

单位:无

有效统计数据:Max

数据集对象指标的维度

维度 描述
LabelingJobName

筛选标签作业的数据集对象计数指标。

Amazon SageMaker 特色商店指标

Feature Store 使用指标

指标 描述
ConsumedReadRequestsUnits

在指定时间段内使用的读取单元数。您可以检索特征存放区运行时系统操作及其相应特征组使用的读取单元。

单位:无

有效统计数据:全部

ConsumedWriteRequestsUnits

在指定时间段内使用的写入单元数。您可以检索特征存放区运行时系统操作及其相应特征组使用的写入单元。

单位:无

有效统计数据:全部

ConsumedReadCapacityUnits

在指定时间段内消耗的预配置读取容量单位数。您可以检索 feature store 运行时操作及其相应功能组消耗的读取容量单位。

单位:无

有效统计数据:全部

ConsumedWriteCapacityUnits

在指定时间段内消耗的预配置写入容量单位数。您可以检索 feature store 运行时操作及其相应功能组消耗的写入容量单位。

单位:无

有效统计数据:全部

Feature Store 使用指标的维度

维度 描述
FeatureGroupName, OperationName

筛选特征组和您指定的操作的特征存放区运行时系统使用指标。

Feature Store 操作指标

指标 描述
Invocations

在指定时间段内对特征存放区运行时系统操作发出的请求数。

单位:无

有效统计数据:Sum

Operation4XXErrors

向功能存储运行时操作发出的请求数,其中该操作返回 4xx HTTP 响应代码。对于每个 4xx 响应,发送 1;否则,发送 0。

单位:无

有效统计数据:Average、Sum

Operation5XXErrors

向 feature store 运行时操作发出的请求数,其中该操作返回了 5xx HTTP 响应代码。对于每个 5xx 响应,发送 1;否则,发送 0。

单位:无

有效统计数据:Average、Sum

ThrottledRequests

向特征存放区运行时系统操作发出的请求数,其中请求被节流。对于每个受限制的请求,发送 1;否则,发送 0。

单位:无

有效统计数据:Average、Sum

Latency

处理向 Feature Store 运行时系统操作提出的请求的时间间隔。此间隔是从 SageMaker 收到请求到向客户端返回响应的时间开始计算的。

单位:微秒

有效统计数据:Average、Sum、Min、Max、Sample Count、Percentiles

Feature Store 操作指标的维度

维度 描述

FeatureGroupName, OperationName

筛选特征组和您指定的操作的特征存放区运行时系统操作指标。您可以将这些维度用于非批量操作 GetRecord,例如 PutRecord、和 DeleteRecord。
OperationName

筛选您指定的操作的特征存放区运行时系统操作指标。您可以将此维度用于批量操作,例如 BatchGetRecord。

SageMaker 管道指标

AWS/Sagemaker/ModelBuildingPipeline 命名空间包括管道执行的以下指标。

有两种类型的管道执行指标可用:

  • 所有管道的执行指标 - 账户级管道执行指标(用于当前账户中的所有管道)

  • 按管道划分的执行指标 - 每个管道的管道执行指标

指标按 1 分钟一次的频率提供。

管道执行指标

指标 描述
ExecutionStarted

启动的管道执行次数。

单位:计数

有效统计数据:Average、Sum

ExecutionFailed

失败的管道执行次数。

单位:计数

有效统计数据:Average、Sum

ExecutionSucceeded

成功的管道执行次数。

单位:计数

有效统计数据:Average、Sum

ExecutionStopped

已停止的管道执行次数。

单位:计数

有效统计数据:Average、Sum

ExecutionDuration

管道执行运行的持续时间(以毫秒为单位)。

单位:毫秒

有效统计数据:Average、Sum、Min、Max、Sample Count

按管道划分的执行指标维度

维度 描述
PipelineName

筛选指定管道的管道执行指标。

管道步骤指标

AWS/Sagemaker/ModelBuildingPipeline 命名空间包括管道步骤的以下指标。

指标按 1 分钟一次的频率提供。

指标 描述
StepStarted

已启动的步骤数。

单位:计数

有效统计数据:Average、Sum

StepFailed

失败的步骤数。

单位:计数

有效统计数据:Average、Sum

StepSucceeded

成功的步骤数。

单位:计数

有效统计数据:Average、Sum

StepStopped

已停止的步骤数。

单位:计数

有效统计数据:Average、Sum

StepDuration

步骤运行的持续时间(以毫秒为单位)。

单位:毫秒

有效统计数据:Average、Sum、Min、Max、Sample Count

管道步骤指标的维度

维度 描述
PipelineName, StepName

筛选指定管道和步骤的步骤指标。