使用 Amazon CloudWatch 监控 Amazon SageMax - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 Amazon Web Services 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

使用 Amazon CloudWatch 监控 Amazon SageMax

您可以使用 Amazon CloudWatch 监控 Amazon SageMaker,此工具可收集原始数据,并将数据处理为便于读取的近乎实时的指标。这些统计数据会保存 15 个月,从而使您能够访问历史信息,并能够更好地了解您的 Web 应用程序或服务的执行情况。但是,Amazon CloudWatch 控制台将搜索限制最近 2 周内更新过的指标。此限制可确保显示您命名空间中最新的作业。要列出指标图形而不使用搜索,请在源视图中指定其确切名称。此外,可以设置用于监测特定阈值的警报,并在达到相应阈值时发送通知或执行操作。有关更多信息,请参阅 Amazon CloudWatch 用户指南

SageMaker 终端节点调用指标

这些区域有:AWS/SageMaker命名空间包含通过调用获得的以下请求指标InvokeEndpoint.

指标按 1 分钟一次的频率提供。

有关 CloudWatch 指标的保留时间长度的信息,请参阅GetMetricStatistics中的Amazon CloudWatch API 参考.

终端节点调用指标

指标 描述
Invocation4XXErrors

模型在其中返回 4xx HTTP 响应代码的 InvokeEndpoint 请求的数量。对于每个 4xx 响应,发送 1;否则,发送 0。

单位:无

有效统计数据:Average、Sum

Invocation5XXErrors

模型在其中返回 5xx HTTP 响应代码的 InvokeEndpoint 请求的数量。对于每个 5xx 响应,发送 1;否则,发送 0。

单位:无

有效统计数据:Average、Sum

Invocations

的数量InvokeEndpoint发送到模型终端节点的请求。

要获取发送到模型终端节点的请求总数,请使用 Sum 统计数据。

单位:无

有效统计数据:总计

InvocationsPerInstance

发送到模型的调用数,通过InstanceCount在每个 ProductionVariant 1/numberOfInstances作为每个请求的值发送,其中numberOfInstances是请求时终端节点后面的 ProductionVariant 的活动实例数量。

单位:无

有效统计数据:总计

ModelLatency

从 SageMaker 查看时模型做出响应所用的时间间隔。此时间间隔包括发送请求以及从模型容器提取响应的本地通信时间,以及在容器中完成推理所用的时间。

单位:微秒

有效统计数据:A、Sum、Min、Max、Sample Count

OverheadLatency

由于 SageMaker 开销添加到响应客户端的时间间隔。此时间间隔的计算从 SageMaker 收到请求开始,直至它返回响应到客户端,减去ModelLatency. 开销延迟可能会由于多种因素发生而变化,包括请求和响应负载大小、请求频率以及请求的身份验证/授权。

单位:微秒

有效统计数据:A、Sum、Min、Max、Sample Count

终端节点调用指标的维度

维度 描述
EndpointName, VariantName

针对指定终端节点和变体的 ProductionVariant 筛选终端节点调用指标。

SageMaker 多模型终端节点指标

这些区域有:AWS/SageMaker命名空间包含通过调用获得的以下模型加载指标InvokeEndpoint.

指标按 1 分钟一次的频率提供。

有关 CloudWatch 指标的保留时间长度的信息,请参阅GetMetricStatistics中的Amazon CloudWatch API 参考.

Multi-Model Endpoint Model Loading Metrics (多模型终端节点模型加载指标)

指标 描述
ModelLoadingWaitTime

调用请求等待下载和/或加载目标模型以执行推理的间隔时间。

单位:微秒

有效统计数据:A、Sum、Min、Max、Sample Count

ModelUnloadingTime

通过容器的 UnloadModel API 调用卸载模型所用的间隔时间。

单位:微秒

有效统计数据:A、Sum、Min、Max、Sample Count

ModelDownloadingTime

从 Amazon Simple Storage Service (Amazon S3) 下载模型所用的间隔时间。

单位:微秒

有效统计数据:A、Sum、Min、Max、Sample Count

ModelLoadingTime

通过容器的 LoadModel API 调用加载模型所用的间隔时间。

单位:微秒

有效统计数据:A、Sum、Min、Max、Sample Count

ModelCacheHit

发送到已加载模型的多模型终端节点的 InvokeEndpoint 请求数。

“Average”统计数据显示已加载模型的请求的比率。

单位:无

有效统计数据:A、Sample Count

Dimensions for Multi-Model Endpoint Model Loading Metrics (多模型终端节点模型加载指标的维度)

维度 描述
EndpointName, VariantName

针对指定终端节点和变体的 ProductionVariant 筛选终端节点调用指标。

这些区域有:/aws/sagemaker/Endpoints命名空间包含通过调用获得的以下实例指标InvokeEndpoint.

指标按 1 分钟一次的频率提供。

有关 CloudWatch 指标的保留时间长度的信息,请参阅GetMetricStatistics中的Amazon CloudWatch API 参考.

Multi-Model Endpoint Model Instance Metrics (多模型终端节点模型实例指标)

指标 描述
LoadedModelCount

多模型终端节点的容器中加载的模型数。此指标是按实例发射的。

周期为 1 分钟的“Average”统计数据指示每个实例加载的平均模型数。

“Sum”统计数据指示在终端节点中的所有实例上加载的模型总数。

此指标跟踪的模型不一定是唯一的,因为可能在终端节点的多个容器中加载模型。

单位:无

有效统计数据:A、Sum、Min、Max、Sample Count

Dimensions for Multi-Model Endpoint Model Loading Metrics (多模型终端节点模型加载指标的维度)

维度 描述
EndpointName, VariantName

针对指定终端节点和变体的 ProductionVariant 筛选终端节点调用指标。

SageMaker 作业和终端节点指标

/aws/sagemaker/ProcessingJobs/aws/sagemaker/TrainingJobs/aws/sagemaker/TransformJobs/aws/sagemaker/Endpoints 命名空间包括以下用于训练作业和终端节点实例的指标。

指标按 1 分钟一次的频率提供。

处理作业、训练作业、批量转换作业和终端节点实例指标

指标 描述
CPUUtilization

每个 CPU 内核利用率的总和。每个内核的 CPU 使用率可以介于 0 到 100 之间。例如,如果有四个 CPU,CPUUtilization 可以介于 0% 到 400% 之间。

对于处理作业,该值是实例上的处理容器的 CPU 利用率。

对于训练作业,该值是实例上的算法容器的 CPU 利用率。

对于批量转换作业,该值是实例上的转换容器的 CPU 利用率。

对于终端节点变体,该值是实例上的主容器和辅助容器的 CPU 利用率的总和。

注意

对于多个实例,每个实例都会报告 CPU 利用率指标。但是,CloudWatch 中的默认视图显示跨所有实例的平均 CPU 利用率。

单位:百分比

MemoryUtilization

实例上的容器所使用的内存的百分比。该值可以介于 0% 和 100% 之间。

对于处理作业,该值是实例上的处理容器的内存利用率。

对于训练作业,该值是实例上的算法容器的内存利用率。

对于批量转换作业,该值是实例上的转换容器的内存利用率。

对于终端节点变体,该值是实例上的主容器和辅助容器的内存利用率的总和。

单位:百分比

注意

对于多个实例,每个实例都会报告内存利用率指标。但是,CloudWatch 中的默认视图显示跨所有实例的平均内存利用率。

GPUUtilization

实例上的容器所使用的 GPU 单位的百分比。该值可以介于 0 到 100 之间,并且乘以 GPU 数目。例如,如果有四个 GPU,GPUUtilization 可以介于 0% 到 400% 之间。

对于处理作业,该值是实例上的处理容器的 GPU 利用率。

对于训练作业,该值是实例上的算法容器的 GPU 利用率。

对于批量转换作业,该值是实例上的转换容器的 GPU 利用率。

对于终端节点变体,该值是实例上的主容器和辅助容器的 GPU 利用率的总和。

注意

对于多个实例,每个实例都会报告 GPU 利用率指标。但是,CloudWatch 中的默认视图显示跨所有实例的平均 GPU 利用率。

单位:百分比

GPUMemoryUtilization

实例上的容器所使用的 GPU 内存的百分比。该值可以介于 0 到 100 之间,并且乘以 GPU 数目。例如,如果有四个 GPU,GPUMemoryUtilization 可以介于 0% 到 400% 之间。

对于处理作业,该值是实例上的处理容器的 GPU 内存利用率。

对于训练作业,该值是实例上的算法容器的 GPU 内存利用率。

对于批量转换作业,该值是实例上的转换容器的 GPU 内存利用率。

对于终端节点变体,该值是实例上的主容器和辅助容器的 GPU 内存利用率的总和。

注意

对于多个实例,每个实例都会报告 GPU 内存利用率指标。但是,CloudWatch 中的默认视图显示跨所有实例的平均 GPU 内存利用率。

单位:百分比

DiskUtilization

实例上的容器所使用的磁盘空间的百分比。该值可以介于 0% 和 100% 之间。批量转换作业不支持此指标。

对于处理作业,该值是实例上的处理容器的磁盘空间利用率。

对于训练作业,该值是实例上的算法容器的磁盘空间利用率。

对于终端节点变体,该值是实例上的主容器和辅助容器的磁盘空间利用率的总和。

单位:百分比

注意

对于多个实例,每个实例都会报告磁盘利用率指标。但是,CloudWatch 中的默认视图显示跨所有实例的平均磁盘利用率。

处理作业、训练作业和批量转换作业实例指标的维度

维度 描述
Host

对于处理作业,该维度的值具有格式 [processing-job-name]/algo-[instance-number-in-cluster]。使用此维度可筛选指定处理作业和实例的实例指标。此维度格式仅存在于 /aws/sagemaker/ProcessingJobs 命名空间中。

对于训练作业,该维度的值具有格式 [training-job-name]/algo-[instance-number-in-cluster]。使用此维度可筛选指定训练作业和实例的实例指标。此维度格式仅存在于 /aws/sagemaker/TrainingJobs 命名空间中。

对于批量转换作业,该维度的值的格式为 [transform-job-name]/[instance-id]。使用此维度可筛选指定批量转换作业和实例的实例指标。此维度格式仅存在于 /aws/sagemaker/TransformJobs 命名空间中。

SageMaker Ground Truth 指标

Ground Truth 指标

指标 描述
ActiveWorkers

专用工作组中的单个活跃工作人员提交、发布或拒绝任务。要获取活动工作人员的总数,请使用 Sum 统计数据。Ground Truth 试图提供每个人ActiveWorkers事件一次。如果此交付不成功,则此指标可能不会报告活动工作人员的总数

单位:无

有效统计数据:Sample Count

DatasetObjectsAutoAnnotated

在标记作业中自动注释的数据集对象数。此指标仅在启用自动标记时发出。要查看标记作业进度,请使用 Max 指标。

单位:无

有效统计数据:Max

DatasetObjectsHumanAnnotated

在标记作业中人工注释的数据集对象数。要查看标记作业进度,请使用 Max 指标。

单位:无

有效统计数据:Max

DatasetObjectsLabelingFailed

在标记作业中未能标记的数据集对象数。要查看标记作业进度,请使用 Max 指标。

单位:无

有效统计数据:Max

JobsFailed

单个标记作业失败。要获取失败的标记作业总数,请使用 Sum 统计数据。

单位:无

有效统计数据:Sample Count

JobsSucceeded

单个标签作业成功。要获取成功的标记作业总数,请使用 Sum 统计数据。

单位:无

有效统计数据:Sample Count

JobsStopped

单个标记作业已停止。要获取停止的标记作业总数,请使用 Sum 统计数据。

单位:无

有效统计数据:Sample Count

TasksAccepted

工作人员接受了单个任务。要获取工作人员接受的任务总数,请使用 Sum 统计数据。Ground Truth 试图提供每个人TaskAccepted事件一次。如果此交付不成功,则此指标可能不会报告已接受的任务总数。

单位:无

有效统计数据:Sample Count

TasksDeclined

一个任务被工作人员拒绝。要获取工作人员拒绝的任务总数,请使用 Sum 统计数据。Ground Truth 试图提供每个人TasksDeclined事件一次。如果此交付不成功,则此指标可能不会报告拒绝的任务总数。

单位:无

有效统计数据:Sample Count

TasksReturned

返回了一个任务。要获取返回的任务总数,请使用 Sum 统计数据。Ground Truth 试图提供每个人TasksReturned事件一次。如果此传递不成功,则此指标可能不会报告返回的任务总数。

单位:无

有效统计数据:Sample Count

TasksSubmitted

私人工作人员提交/完成了单项任务。要获取由工作人员提交的任务总数,请使用 Sum 统计数据。Ground Truth 试图提供每个人TasksSubmitted事件一次。如果此交付不成功,则此指标可能不会报告提交的任务总数。

单位:无

有效统计数据:Sample Count

TimeSpent

私人工作人员完成任务所用的时间。此指标不包括工作人员暂停或休息的时间。Ground Truth 试图提供每个TimeSpent事件一次。如果此配送不成功,则此指标可能不会报告所花费的总时间。

单位:秒

有效统计数据:Sample Count

TotalDatasetObjectsLabeled

在标记作业中成功标记的数据集对象数。要查看标记作业进度,请使用 Max 指标。

单位:无

有效统计数据:Max

数据集对象指标的维度

维度 描述
LabelingJobName

筛选标签作业的数据集对象计数指标。

SageMaker 功能商店指标

功能存储衡量指标

指标 描述
ConsumedReadRequestsUnits

在指定时间段内已使用的读取单位数。您可以检索要素存储运行时操作及其相应要素组的已消耗读取单位。

单位:无

有效统计数据:All

ConsumedWriteRequestsUnits

在指定时间段内使用的写入单位数。您可以检索要素存储运行时操作及其相应要素组的使用写入单位。

单位:无

有效统计数据:All

要素存储量度的维度

维度 描述
FeatureGroupName, OperationName

过滤器 feature store 指定要素组的运行时操作指标。

SageMaker 管道指标

这些区域有:AWS/Sagemaker/ModelBuildingPipeline命名空间包含管道执行的以下指标。

提供了两类管道执行指标:

  • 跨所有管道的执行度量— 账户级管道执行指标(适用于当前账户中的所有管道)

  • 按管道列出的执行指标— 每个管道的管道执行指标

指标按 1 分钟一次的频率提供。

管道执行指标

指标 描述
ExecutionStarted

已启动的管道执行数。

单位:计数

有效统计数据:Average、Sum

ExecutionFailed

失败的管道执行数。

单位:计数

有效统计数据:Average、Sum

ExecutionSucceeded

成功的管道执行数。

单位:计数

有效统计数据:Average、Sum

ExecutionStopped

已停止的管道执行数。

单位:计数

有效统计数据:Average、Sum

ExecutionDuration

管道执行运行的持续时间(以毫秒为单位)。

单位:毫秒

有效统计数据:A、Sum、Min、Max、Sample Count

按管道列出的执行指标的维度

维度 描述
PipelineName

筛选指定管道的管道执行度量。

管道步骤度量

这些区域有:AWS/Sagemaker/ModelBuildingPipeline命名空间包含管道步骤的以下指标。

指标按 1 分钟一次的频率提供。

指标 描述
StepStarted

已启动的步骤数。

单位:计数

有效统计数据:Average、Sum

StepFailed

失败的步骤数。

单位:计数

有效统计数据:Average、Sum

StepSucceeded

成功的步骤数。

单位:计数

有效统计数据:Average、Sum

StepStopped

停止的步骤数。

单位:计数

有效统计数据:Average、Sum

StepDuration

步骤运行的持续时间(以毫秒为单位)。

单位:毫秒

有效统计数据:A、Sum、Min、Max、Sample Count

管道步骤度量的维

维度 描述
PipelineName, StepName

筛选指定管道和步骤的步骤度量。