使用 Amazon CloudWatch 监控 SageMaker - 亚马逊 SageMaker
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 AWS 服务入门

如果我们为英文版本指南提供翻译,那么如果存在任何冲突,将以英文版本指南为准。在提供翻译时使用机器翻译。

使用 Amazon CloudWatch 监控 SageMaker

您可以使用 Amazon CloudWatch 监控 SageMaker,此工具可收集原始数据,并将数据处理为便于读取的近乎实时的指标。这些统计数据会保存 15 个月,从而使您能够访问历史信息,并能够更好地了解您的 Web 应用程序或服务的执行情况。但是,Amazon CloudWatch 控制台将搜索限制最近 2 周内更新过的指标。此限制可确保显示您命名空间中最新的作业。要列出指标图形而不使用搜索,请在源视图中指定其确切名称。此外,可以设置用于监测特定阈值的警报,并在达到相应阈值时发送通知或执行操作。有关更多信息,请参阅 Amazon CloudWatch 用户指南

SageMaker 模型训练作业和终端节点写入 CloudWatch 指标和日志。以下各表列出 SageMaker 的指标和维度。

终端节点调用指标

aws/sagemaker 命名空间包含通过调用 InvokeEndpoint 获得的以下请求指标。

指标按 1 分钟一次的频率提供。

有关时长的信息 CloudWatch 度量保留,请参阅 GetMetricStatistics(获取度量统计)Amazon CloudWatch API参考.

指标 Description
Invocation4XXErrors

模型在其中返回 4xx HTTP 响应代码的 InvokeEndpoint 请求的数量。对于每个 4xx 响应,发送 1;否则,发送 0。

单位:无

有效统计数据:Average、Sum

Invocation5XXErrors

模型在其中返回 5xx HTTP 响应代码的 InvokeEndpoint 请求的数量。对于每个 5xx 响应,发送 1;否则,发送 0。

单位:无

有效统计数据:Average、Sum

Invocations

发送到模型终端节点的 number of InvokeEndpoint 请求。

要获取发送到模型终端节点的请求总数,请使用 Sum 统计数据。

单位:无

有效统计数据:总和,样本计数

InvocationsPerInstance

发送到模型的调用数,通过 InstanceCount 每个 ProductionVariant. 1/(美国)numberOfInstances 作为每个请求上的值发送,其中 numberOfInstances 是活动实例的数量,用于 ProductionVariant 在请求时,位于终端后面。

单位:无

有效统计数据:总计

ModelLatency

从 SageMaker 查看时模型做出响应所用的时间间隔。此时间间隔包括发送请求以及从模型容器提取响应的本地通信时间,以及在容器中完成推理所用的时间。

单位:微秒

有效统计数据:平均、总和、最小值、最大值、样本计数

OverheadLatency

由于 SageMaker 开销添加到对客户端的响应用时中的时间间隔。此间隔从 SageMaker 收到请求,直到它向客户返回响应,减去 ModelLatency。间接费用延迟可以根据多个因素而变化,包括请求和响应有效载荷大小、请求频率以及请求的认证/授权。

单位:微秒

有效统计数据:平均、总和、最小值、最大值、样本计数

终端节点调用指标的维度

维度 Description
EndpointName, VariantName

针对指定终端节点和变体的 ProductionVariant 筛选终端节点调用指标。

Multi-Model Endpoint Model Loading Metrics (多模型终端节点模型加载指标)

aws/SageMaker 命名空间包含通过调用 InvokeEndpoint 获得的以下模型加载指标。

指标按 1 分钟一次的频率提供。

有关时长的信息 CloudWatch 度量保留,请参阅 GetMetricStatistics(获取度量统计)Amazon CloudWatch API参考.

指标 Description
ModelLoadingWaitTime

调用请求等待下载和/或加载目标模型以执行推理的间隔时间。

单位:微秒

有效统计数据:平均、总和、最小值、最大值、样本计数

ModelUnloadingTime

通过容器的 UnloadModel API 调用卸载模型所用的间隔时间。

单位:微秒

有效统计数据:平均、总和、最小值、最大值、样本计数

ModelDownloadingTime 从 Amazon Simple Storage Service (Amazon S3) 下载模型所用的间隔时间。

单位:微秒

有效统计数据:平均、总和、最小值、最大值、样本计数

ModelLoadingTime

通过容器的 LoadModel API 调用加载模型所用的间隔时间。

单位:微秒

有效统计数据:平均、总和、最小值、最大值、样本计数

ModelCacheHit

发送到已加载模型的多模型终端节点的 InvokeEndpoint 请求数。

“Average”统计数据显示已加载模型的请求的比率。

单位:无

有效统计数据:平均、总和、样本计数

Dimensions for Multi-Model Endpoint Model Loading Metrics (多模型终端节点模型加载指标的维度)

维度 Description
EndpointName, VariantName

针对指定终端节点和变体的 ProductionVariant 筛选终端节点调用指标。

Multi-Model Endpoint Model Instance Metrics (多模型终端节点模型实例指标)

/aws/sagemaker/Endpoints 命名空间包含通过调用 InvokeEndpoint 获得的以下实例指标。

指标按 1 分钟一次的频率提供。

有关时长的信息 CloudWatch 度量保留,请参阅 GetMetricStatistics(获取度量统计)Amazon CloudWatch API参考.

指标 Description
LoadedModelCount

多模型终端节点的容器中加载的模型数。此指标是按实例发射的。

周期为 1 分钟的“Average”统计数据指示每个实例加载的平均模型数。

“Sum”统计数据指示在终端节点中的所有实例上加载的模型总数。

此指标跟踪的模型不一定是唯一的,因为可能在终端节点的多个容器中加载模型。

单位:无

有效统计数据:平均、总和、最小值、最大值、样本计数

Dimensions for Multi-Model Endpoint Model Loading Metrics (多模型终端节点模型加载指标的维度)

维度 Description
EndpointName, VariantName

针对指定终端节点和变体的 ProductionVariant 筛选终端节点调用指标。

处理作业、训练作业、批量转换作业和终端节点实例指标

/aws/sagemaker/ProcessingJobs/aws/sagemaker/TrainingJobs/aws/sagemaker/TransformJobs/aws/sagemaker/Endpoints 命名空间包括以下用于训练作业和终端节点实例的指标。

指标按 1 分钟一次的频率提供。

指标 Description
CPUUtilization

实例上的容器所使用的 CPU 单位的百分比。该值的范围可以在0到100之间,并乘以 CPUs. 例如 CPUs, CPUUtilization 范围为0%至400%。

对于处理作业,该值是实例上的处理容器的 CPU 利用率。

对于训练作业,该值是实例上的算法容器的 CPU 利用率。

对于批量转换作业,该值是实例上的转换容器的 CPU 利用率。

对于终端节点变体,该值是实例上的主容器和辅助容器的 CPU 利用率的总和。

注意

对于多个实例,每个实例都会报告 CPU 利用率指标。但是,CloudWatch 中的默认视图显示跨所有实例的平均 CPU 利用率。

单位:百分比

MemoryUtilization

实例上的容器所使用的内存的百分比。该值可以介于 0% 和 100% 之间。

对于处理作业,该值是实例上的处理容器的内存利用率。

对于训练作业,该值是实例上的算法容器的内存利用率。

对于批量转换作业,该值是实例上的转换容器的内存利用率。

对于终端节点变体,该值是实例上的主容器和辅助容器的内存利用率的总和。

单位:百分比

注意

对于多个实例,每个实例都会报告内存利用率指标。但是,CloudWatch 中的默认视图显示跨所有实例的平均内存利用率。

GPUUtilization

实例上的容器所使用的 GPU 单位的百分比。该值的范围可以在0到100之间,并乘以 GPUs. 例如 GPUs, GPUUtilization 范围为0%至400%。

对于处理作业,该值是实例上的处理容器的 GPU 利用率。

对于训练作业,该值是实例上的算法容器的 GPU 利用率。

对于批量转换作业,该值是实例上的转换容器的 GPU 利用率。

对于终端节点变体,该值是实例上的主容器和辅助容器的 GPU 利用率的总和。

注意

对于多个实例,每个实例都会报告 GPU 利用率指标。但是,CloudWatch 中的默认视图显示跨所有实例的平均 GPU 利用率。

单位:百分比

GPUMemoryUtilization

实例上的容器所使用的 GPU 内存的百分比。该值的范围可以在0到100之间,并乘以 GPUs. 例如 GPUs, GPUMemoryUtilization 范围为0%至400%。

对于处理作业,该值是实例上的处理容器的 GPU 内存利用率。

对于训练作业,该值是实例上的算法容器的 GPU 内存利用率。

对于批量转换作业,该值是实例上的转换容器的 GPU 内存利用率。

对于终端节点变体,该值是实例上的主容器和辅助容器的 GPU 内存利用率的总和。

注意

对于多个实例,每个实例都会报告 GPU 内存利用率指标。但是,CloudWatch 中的默认视图显示跨所有实例的平均 GPU 内存利用率。

单位:百分比

DiskUtilization

实例上的容器所使用的磁盘空间的百分比。该值可以介于 0% 和 100% 之间。批量转换作业不支持此指标。

对于处理作业,该值是实例上的处理容器的磁盘空间利用率。

对于训练作业,该值是实例上的算法容器的磁盘空间利用率。

对于终端节点变体,该值是实例上的主容器和辅助容器的磁盘空间利用率的总和。

单位:百分比

注意

对于多个实例,每个实例都会报告磁盘利用率指标。但是,CloudWatch 中的默认视图显示跨所有实例的平均磁盘利用率。

处理作业、训练作业和批量转换作业实例指标的维度

维度 Description
Host

对于处理作业,此维度的值的格式为 [processing-job-name]/algo-[instance-number-in-cluster]。使用此维度可过滤指定处理作业和实例的实例度量。此维度格式仅存在于 /aws/sagemaker/ProcessingJobs 命名空间中。

对于培训工作,此维度的值的格式为 [training-job-name]/algo-[instance-number-in-cluster]。使用此维度筛选指定培训作业和实例的实例度量。此维度格式仅存在于 /aws/sagemaker/TrainingJobs 命名空间中。

对于批量转换作业,此维度的值的格式为 [transform-job-name]/[instance-id]。使用此维度筛选指定批处理转换作业和实例的实例度量。此维度格式仅存在于 /aws/sagemaker/TransformJobs 命名空间中。

亚马逊 SageMaker 地面真实度指标

指标 Description
ActiveWorkers

执行标记作业的私人工作团队的工作人员数量。

单位:无

有效统计数据:最大值

DatasetObjectsAutoAnnotated

在标记作业中自动注释的数据集对象数。此指标仅在启用自动标记时发出。要查看标记作业进度,请使用 Max 指标。

单位:无

有效统计数据:最大值

DatasetObjectsHumanAnnotated

在标记作业中人工注释的数据集对象数。要查看标记作业进度,请使用 Max 指标。

单位:无

有效统计数据:最大值

DatasetObjectsLabelingFailed

在标记作业中未能标记的数据集对象数。要查看标记作业进度,请使用 Max 指标。

单位:无

有效统计数据:最大值

JobsFailed

失败的标记作业数。要获取失败的标记作业总数,请使用 Sum 统计数据。

单位:无

有效统计数据:总和,样本计数

JobsSucceeded

成功的标记作业数。要获取成功的标记作业总数,请使用 Sum 统计数据。

单位:无

有效统计数据:总和,样本计数

JobsStopped

停止的标记作业数。要获取停止的标记作业总数,请使用 Sum 统计数据。

单位:无

有效统计数据:总和,样本计数

TasksAccepted

工作人员接受的任务总数。

单位:无

有效统计数据:最大值

TasksReturned

工作人员返回的任务总数。

单位:无

有效统计数据:最大值

TasksSubmitted

私人工作团队提交/完成的任务数。

单位:无

有效统计数据:最大值

TimeSpent

私人工作团队完成任务所用的时间。

单位:Seconds

有效统计数据:最大值

TotalDatasetObjectsLabeled

在标记作业中成功标记的数据集对象数。要查看标记作业进度,请使用 Max 指标。

单位:无

有效统计数据:最大值

数据集对象指标的维度

维度 Description
LabelingJobName

筛选标签作业的数据集对象计数指标。