SageMaker使用亚马逊监控亚马逊 CloudWatch - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

SageMaker使用亚马逊监控亚马逊 CloudWatch

您可以SageMaker使用亚马逊监控亚马逊CloudWatch,亚马逊收集原始数据并将其处理为可读的近乎实时的指标。这些统计数据会保存 15 个月,从而使您能够访问历史信息,并能够更好地了解您的 Web 应用程序或服务的执行情况。但是,亚马逊CloudWatch控制台将搜索限制为过去 2 周内更新的指标。此限制可确保显示您命名空间中最新的作业。要列出指标图形而不使用搜索,请在源视图中指定其确切名称。此外,可以设置用于监测特定阈值的警报,并在达到相应阈值时发送通知或执行操作。有关更多信息,请参阅亚马逊CloudWatch用户指南

SageMaker端点调用指标

AWS/SageMaker 命名空间包含通过调用 InvokeEndpoint 获得的以下请求指标。

指标按 1 分钟一次的频率提供。

有关CloudWatch指标保留多长时间的信息,请参阅GetMetricStatistics亚马逊 CloudWatch API 参考》。

终端节点调用指标

指标 描述
Invocation4XXErrors

模型在其中返回 4xx HTTP 响应代码的 InvokeEndpoint 请求的数量。对于每个 4xx 响应,发送 1;否则,发送 0。

单位:无

有效统计数据:平均值、总计

Invocation5XXErrors

模型在其中返回 5xx HTTP 响应代码的 InvokeEndpoint 请求的数量。对于每个 5xx 响应,发送 1;否则,发送 0。

单位:无

有效统计数据:平均值、总计

InvocationModelErrors

未导致 2XX HTTP 响应的模型调用请求的数量。这包括 4XX/5XX 状态码、低级套接字错误、格式错误的 HTTP 响应和请求超时。对于每个错误响应,发送 1;否则,发送 0。

单位:无

有效统计数据:平均值、总计

Invocations

发送到模型终端节点的InvokeEndpoint请求数量。

要获取发送到模型终端节点的请求总数,请使用 Sum 统计数据。

单位:无

有效统计数据:Sum

InvocationsPerInstance

发送到模型的调用次数,按InstanceCount每个调用标准化ProductionVariant。1/ numberOfInstances 作为每个请求的值发送,其中numberOfInstances是请求时端点ProductionVariant后面的活动实例数。

单位:无

有效统计数据:Sum

ModelLatency

从 SageMaker 查看时模型做出响应所用的时间间隔。此时间间隔包括发送请求以及从模型容器提取响应的本地通信时间,以及在容器中完成推理所用的时间。

单位:微秒

有效统计数据:Average、Sum、Min、Max、Sample Count

OverheadLatency

由于 SageMaker 开销添加到对客户端的响应用时中的时间间隔。此时间间隔的计算从 SageMaker 收到请求开始,直至它返回响应到客户端,减去 ModelLatency。开销延迟可能会由于多种因素发生而变化,包括请求和响应负载大小、请求频率以及请求的身份验证/授权。

单位:微秒

有效统计数据:Average、Sum、Min、Max、Sample Count

ModelSetupTime

为无服务器端点启动新的计算资源所花费的时间。时间可能会有所不同,具体取决于模型大小、下载模型所需的时间以及容器的启动时间。

单位:微秒

有效统计数据:平均值、最小值、最大值、样本数、百分位数

终端节点调用指标的维度

维度 描述
EndpointName, VariantName

针对指定终端节点和变体的 ProductionVariant 筛选终端节点调用指标。

SageMaker多模型终端指标

AWS/SageMaker命名空间包括以下模型从调用到的加载指标InvokeEndpoint

指标按 1 分钟一次的频率提供。

有关CloudWatch指标保留多长时间的信息,请参阅GetMetricStatistics亚马逊 CloudWatch API 参考》。

Multi-Model Endpoint Model Loading Metrics (多模型终端节点模型加载指标)

指标 描述
ModelLoadingWaitTime

调用请求等待下载和/或加载目标模型以执行推理的间隔时间。

单位:微秒

有效统计数据:Average、Sum、Min、Max、Sample Count

ModelUnloadingTime

通过容器的 UnloadModel API 调用卸载模型所用的间隔时间。

单位:微秒

有效统计数据:Average、Sum、Min、Max、Sample Count

ModelDownloadingTime

从亚马逊简单存储服务 (Amazon S3) 下载模型所花费的时间间隔。

单位:微秒

有效统计数据:Average、Sum、Min、Max、Sample Count

ModelLoadingTime

通过容器的 LoadModel API 调用加载模型所用的间隔时间。

单位:微秒

有效统计数据:Average、Sum、Min、Max、Sample Count

ModelCacheHit

发送到已加载模型的多模型终端节点的 InvokeEndpoint 请求数。

“Average”统计数据显示已加载模型的请求的比率。

单位:无

有效统计数据:Average、Sum、Sample Count

Dimensions for Multi-Model Endpoint Model Loading Metrics (多模型终端节点模型加载指标的维度)

维度 描述
EndpointName, VariantName

针对指定终端节点和变体的 ProductionVariant 筛选终端节点调用指标。

/aws/sagemaker/Endpoints 命名空间包含通过调用 InvokeEndpoint 获得的以下实例指标。

指标按 1 分钟一次的频率提供。

有关CloudWatch指标保留多长时间的信息,请参阅GetMetricStatistics亚马逊 CloudWatch API 参考》。

Multi-Model Endpoint Model Instance Metrics (多模型终端节点模型实例指标)

指标 描述
LoadedModelCount

多模型终端节点的容器中加载的模型数。此指标是按实例发射的。

周期为 1 分钟的“Average”统计数据指示每个实例加载的平均模型数。

“Sum”统计数据指示在终端节点中的所有实例上加载的模型总数。

此指标跟踪的模型不一定是唯一的,因为可能在终端节点的多个容器中加载模型。

单位:无

有效统计数据:Average、Sum、Min、Max、Sample Count

Dimensions for Multi-Model Endpoint Model Loading Metrics (多模型终端节点模型加载指标的维度)

维度 描述
EndpointName, VariantName

针对指定终端节点和变体的 ProductionVariant 筛选终端节点调用指标。

SageMaker任务和终端指标

/aws/sagemaker/ProcessingJobs/aws/sagemaker/TrainingJobs/aws/sagemaker/TransformJobs、和/aws/sagemaker/Endpoints命名空间包括训练任务和终端节点实例的以下指标。

指标按 1 分钟一次的频率提供。

注意

亚马逊CloudWatch支持高分辨率自定义指标,其最佳分辨率为 1 秒。但是,分辨率越高,CloudWatch指标的生命周期就越短。对于 1 秒频率分辨率,CloudWatch指标在 3 小时内可用。有关CloudWatch指标的分辨率和有效期的更多信息,请参阅 GetMetricStatisticsAmazon CloudWatch API 参考

提示

如果您想以更精细的分辨率来分析训练作业,精度可低至 100 毫秒(0.1 秒),并将训练指标无限期存储在 Amazon S3 中以便随时进行自定义分析,请考虑使用 Amazon Debugger。SageMakerSageMakerDebugger 提供内置规则以自动检测常见的训练问题;它可以检测硬件资源利用率问题(例如 CPU、GPU 和 I/O 瓶颈)和非融合模型问题(例如过度拟合、梯度消失和张量爆炸)。SageMaker调试器还通过 Studio 及其分析报告提供可视化效果。要探索调试器可视化效果,请参阅 D SageMakerebugger Insights 仪表板演练调试器性能分析报告演练和使用 smDebug 客户端库分析数据

处理作业、训练作业、批量转换作业和终端节点实例指标

指标 描述
CPUUtilization 每个 CPU 内核利用率的总和。每个内核范围的 CPU 利用率为 0—100。例如,如果有四个 CPU,则CPUUtilization范围为 0% — 400%。对于处理作业,该值是实例上的处理容器的 CPU 利用率。

对于训练作业,该值是实例上的算法容器的 CPU 利用率。

对于批量转换作业,该值是实例上的转换容器的 CPU 利用率。

对于终端节点变体,该值是实例上的主容器和辅助容器的 CPU 利用率的总和。

注意

对于多实例作业,每个实例都会报告 CPU 利用率指标。但是,CloudWatch 中的默认视图显示跨所有实例的平均 CPU 利用率。

单位:百分比

MemoryUtilization

实例上的容器所使用的内存的百分比。此值范围为 0% — 100%。

对于处理作业,该值是实例上的处理容器的内存利用率。

对于训练作业,该值是实例上的算法容器的内存利用率。

对于批量转换作业,该值是实例上的转换容器的内存利用率。

对于终端节点变体,该值是实例上的主容器和辅助容器的内存利用率的总和。

单位:百分比

注意

对于多实例作业,每个实例都会报告内存利用率指标。但是,CloudWatch 中的默认视图显示跨所有实例的平均内存利用率。

GPUUtilization

实例上的容器所使用的 GPU 单位的百分比。范围之间的值可以介于 0—100 之间,乘以 GPU 的数量。例如,如果有四个 GPU,则GPUUtilization范围为 0% — 400%。

对于处理作业,该值是实例上的处理容器的 GPU 利用率。

对于训练作业,该值是实例上的算法容器的 GPU 利用率。

对于批量转换作业,该值是实例上的转换容器的 GPU 利用率。

对于终端节点变体,该值是实例上的主容器和辅助容器的 GPU 利用率的总和。

注意

对于多实例作业,每个实例都会报告 GPU 利用率指标。但是,CloudWatch 中的默认视图显示跨所有实例的平均 GPU 利用率。

单位:百分比

GPUMemoryUtilization

实例上的容器所使用的 GPU 内存的百分比。值范围为 0—100,乘以 GPU 的数量。例如,如果有四个 GPU,则GPUMemoryUtilization范围为 0% — 400%。

对于处理作业,该值是实例上的处理容器的 GPU 内存利用率。

对于训练作业,该值是实例上的算法容器的 GPU 内存利用率。

对于批量转换作业,该值是实例上的转换容器的 GPU 内存利用率。

对于终端节点变体,该值是实例上的主容器和辅助容器的 GPU 内存利用率的总和。

注意

对于多实例作业,每个实例都会报告 GPU 内存利用率指标。但是,CloudWatch 中的默认视图显示跨所有实例的平均 GPU 内存利用率。

单位:百分比

DiskUtilization

实例上的容器所使用的磁盘空间的百分比。此值范围为 0% — 100%。批量转换作业不支持此指标。

对于处理作业,该值是实例上的处理容器的磁盘空间利用率。

对于训练作业,该值是实例上的算法容器的磁盘空间利用率。

对于终端节点变体,该值是实例上的主容器和辅助容器的磁盘空间利用率的总和。

单位:百分比

注意

对于多实例作业,每个实例都会报告磁盘利用率指标。但是,CloudWatch 中的默认视图显示跨所有实例的平均磁盘利用率。

处理作业、训练作业和批量转换作业实例指标的维度

维度 描述
Host

对于处理作业,该维度的值具有格式 [processing-job-name]/algo-[instance-number-in-cluster]。使用此维度可筛选指定处理作业和实例的实例指标。此维度格式仅存在于 /aws/sagemaker/ProcessingJobs 命名空间中。

对于训练作业,该维度的值具有格式 [training-job-name]/algo-[instance-number-in-cluster]。使用此维度可筛选指定训练作业和实例的实例指标。此维度格式仅存在于 /aws/sagemaker/TrainingJobs 命名空间中。

对于批量转换作业,该维度的值的格式为 [transform-job-name]/[instance-id]。使用此维度可筛选指定批量转换作业和实例的实例指标。此维度格式仅存在于 /aws/sagemaker/TransformJobs 命名空间中。

SageMaker推理推荐人职位指标

/aws/sagemaker/InferenceRecommendationsJobs命名空间包括推理推荐作业的以下指标。

推理推荐指标

指标 描述
ClientInvocations

推理推荐器观察到的发送到模型端点的InvokeEndpoint请求数量。

单位:无

有效统计数据:Sum

ClientInvocationErrors

推理推荐器观察到的失败InvokeEndpoint请求数。

单位:无

有效统计数据:Sum

ClientLatency

Inference Revelder 观察到的从发送InvokeEndpoint呼叫到接收响应所花费的时间间隔。请注意,时间以毫秒为单位,而ModelLatency端点调用指标以微秒为单位。

单位:毫秒

有效统计数据:平均值、总和、最小值、最大值、样本数、百分位数

NumberOfUsers

向模型终端节点发送InvokeEndpoint请求的并发用户数。

单位:无

有效统计数据:最大值、最小值、平均值

推理推荐人工作指标的维度

维度 描述
JobName

筛选指定推理推荐者作业的推理推荐任务指标。

EndpointName

筛选指定端点的推理推荐任务指标。

SageMaker基本真相指标

基本真相指标

指标 描述
ActiveWorkers

私人工作团队中的单个活跃工作人员提交、发布或拒绝了任务。要获取活跃工作人员的总数,请使用总和统计数据。Ground Truth 会尝试为每个单独ActiveWorkers的事件提供一次。如果此次交付不成功,则此指标可能不会报告活跃工作人员的总数

单位:无

有效统计数据:Sum、Sample Count

DatasetObjectsAutoAnnotated

在标记作业中自动注释的数据集对象数。此指标仅在启用自动标记时发出。要查看标记作业进度,请使用 Max 指标。

单位:无

有效统计数据:Max

DatasetObjectsHumanAnnotated

在标记作业中人工注释的数据集对象数。要查看标记作业进度,请使用 Max 指标。

单位:无

有效统计数据:Max

DatasetObjectsLabelingFailed

在标记作业中未能标记的数据集对象数。要查看标记作业进度,请使用 Max 指标。

单位:无

有效统计数据:Max

JobsFailed

单个标签作业失败。要获取失败的标记作业总数,请使用 Sum 统计数据。

单位:无

有效统计数据:Sum、Sample Count

JobsSucceeded

单个标签作业成功。要获取成功的标记作业总数,请使用 Sum 统计数据。

单位:无

有效统计数据:Sum、Sample Count

JobsStopped

单个标签作业已停止。要获取停止的标记作业总数,请使用 Sum 统计数据。

单位:无

有效统计数据:Sum、Sample Count

TasksAccepted

工作人员接受了一项任务。要获取工作人员接受的任务总数,请使用总和统计数据。Ground Truth 会尝试为每个单独TaskAccepted的事件提供一次。如果此次交付不成功,则此指标可能不会报告接受的任务总数。

单位:无

有效统计数据:Sum、Sample Count

TasksDeclined

一项任务被工作人员拒绝了。要获取工作人员拒绝的任务总数,请使用总和统计数据。Ground Truth 会尝试为每个单独TasksDeclined的事件提供一次。如果此次交付不成功,则此指标可能不会报告被拒绝的任务总数。

单位:无

有效统计数据:总和、样本数

TasksReturned

返回了单个任务。要获取返回的任务总数,请使用 Sum 统计信息。Ground Truth 会尝试为每个单独TasksReturned的事件提供一次。如果此次交付不成功,则此指标可能不会报告返回的任务总数。

单位:无

有效统计数据:Sum、Sample Count

TasksSubmitted

一项任务是由私人工作人员提交/完成的。要获取工作人员提交的任务总数,请使用总和统计数据。Ground Truth 会尝试为每个单独TasksSubmitted的事件提供一次。如果此次交付不成功,则此指标可能不会报告提交的任务总数。

单位:无

有效统计数据:Sum、Sample Count

TimeSpent

在私人工作人员完成的任务上花费的时间。该指标不包括工作人员暂停或休息的时间。Ground Truth 会尝试为每个TimeSpent事件提供一次。如果此次交付不成功,则此指标可能不会报告所花费的总时间。

单位:秒

有效统计数据:Sum、Sample Count

TotalDatasetObjectsLabeled

在标记作业中成功标记的数据集对象数。要查看标记作业进度,请使用 Max 指标。

单位:无

有效统计数据:Max

数据集对象指标的维度

维度 描述
LabelingJobName

筛选标签作业的数据集对象计数指标。

亚马逊SageMaker特色商店指标

功能商店消费指标

指标 描述
ConsumedReadRequestsUnits

指定时间段内消耗的读取单位数。您可以检索功能存储运行时操作及其对应的功能组消耗的读取单位。

单位:无

有效统计数据:全部

ConsumedWriteRequestsUnits

指定时间段内消耗的写入单位数。您可以检索功能存储运行时操作消耗的写入单位及其相应的功能组。

单位:无

有效统计数据:全部

功能商店消费指标的维度

维度 描述
FeatureGroupName, OperationName

筛选功能存储功能组的运行时消耗指标和您指定的操作。

功能商店运营指标

指标 描述
Invocations

在指定时间段内对功能存储运行时操作发出的请求数。

单位:无

有效统计数据:Sum

Operation4XXErrors

向 Feature Store 运行时操作发出的请求数,其中该操作返回 4xx HTTP 响应代码。对于每个 4xx 响应,发送 1;否则,发送 0。

单位:无

有效统计数据:平均值、总计

Operation5XXErrors

向功能存储运行时操作发出的请求数,其中操作返回 5xx HTTP 响应代码。对于每个 5xx 响应,发送 1;否则,发送 0。

单位:无

有效统计数据:平均值、总计

ThrottledRequests

向请求受到限制的功能存储运行时操作发出的请求数量。对于每个受限制的请求,发送 1;否则,发送 0。

单位:无

有效统计数据:平均值、总计

Latency

处理对功能存储运行时操作的请求的时间间隔。此间隔是从SageMaker收到请求到向客户端返回响应的时间开始计算的。

单位:微秒

有效统计数据:平均值、总和、最小值、最大值、样本数、百分位数

功能存储运营指标的维度

维度 描述

FeatureGroupName, OperationName

筛选功能存储功能组的运行时运行指标和您指定的操作。您可以将这些维度用于非批量操作GetRecord,例如PutRecord、和DeleteRecord。
OperationName

筛选您指定的操作的功能存储运行时运行指标。您可以将此维度用于批量操作,例如BatchGetRecord。

SageMaker管道指标

AWS/Sagemaker/ModelBuildingPipeline命名空间包含以下流水线执行指标。

有两类管道执行指标可用:

  • 所有管道的执行指标-账户级管道执行指标(适用于当前账户中的所有管道)

  • 按管道划分的执行指标-每个管道的流水线执行指标

指标按 1 分钟一次的频率提供。

管道执行指标

指标 描述
ExecutionStarted

启动的流水线执行次数。

单位:计数

有效统计数据:平均值、总计

ExecutionFailed

失败的管道执行次数。

单位:计数

有效统计数据:平均值、总计

ExecutionSucceeded

成功执行的流水线次数。

单位:计数

有效统计数据:平均值、总计

ExecutionStopped

停止的管道执行次数。

单位:计数

有效统计数据:平均值、总计

ExecutionDuration

管道执行运行的持续时间(以毫秒为单位)。

单位:毫秒

有效统计数据:Average、Sum、Min、Max、Sample Count

按管道划分的执行指标维度

维度 描述
PipelineName

筛选指定管道的管道执行指标。

管道步骤指标

AWS/Sagemaker/ModelBuildingPipeline命名空间包含以下流水线步骤指标。

指标按 1 分钟一次的频率提供。

指标 描述
StepStarted

开始的步骤数。

单位:计数

有效统计数据:平均值、总计

StepFailed

失败的步骤数。

单位:计数

有效统计数据:平均值、总计

StepSucceeded

成功的步骤数。

单位:计数

有效统计数据:平均值、总计

StepStopped

停止的步骤数。

单位:计数

有效统计数据:平均值、总计

StepDuration

步骤运行的持续时间(以毫秒为单位)。

单位:毫秒

有效统计数据:Average、Sum、Min、Max、Sample Count

管道步骤指标的维度

维度 描述
PipelineName, StepName

筛选指定管道和步骤的步骤指标。