多模型端点部署的 CloudWatch 指标
Amazon SageMaker 为端点提供了一些指标,可用于监控缓存命中率、加载模型数以及模型在多模型端点上加载、下载和上传的等待时间。CPU 和 GPU 支持的多模型端点的某些指标有所不同,因此以下各部分描述了您可以用于每种类型的多模型端点的 Amazon CloudWatch 指标。
有关指标的更多信息,请参阅使用 Amazon CloudWatch 监控 Amazon SageMaker 中的多模型端点模型加载指标和多模型端点模型实例指标。不支持基于模型的指标。
CPU 支持的多模型端点的 CloudWatch 指标
您可以在 CPU 支持的多模型端点上监控以下指标。
AWS/SageMaker
命名空间包含通过调用 InvokeEndpoint 获得的以下模型加载指标。
指标按 1 分钟一次的频率提供。
有关 CloudWatch 指标的保留期的信息,请参阅 Amazon CloudWatch API 参考中的 GetMetricStatistics。
多模型端点模型加载指标
指标 | 描述 |
---|---|
ModelLoadingWaitTime |
调用请求等待下载和/或加载目标模型以执行推理的间隔时间。 单位:微秒 有效统计数据:Average、Sum、Min、Max、Sample Count |
ModelUnloadingTime |
通过容器的 单位:微秒 有效统计数据:Average、Sum、Min、Max、Sample Count |
ModelDownloadingTime |
从 Amazon Simple Storage Service (Amazon S3) 下载模型所花费的时间间隔。 单位:微秒 有效统计数据:Average、Sum、Min、Max、Sample Count |
ModelLoadingTime |
通过容器的 单位:微秒 有效统计数据:Average、Sum、Min、Max、Sample Count |
ModelCacheHit |
发送到已加载模型的多模型端点的 “Average”统计数据显示已加载模型的请求的比率。 单位:无 有效统计数据:Average、Sum、Sample Count |
多模型端点模型加载指标的维度
维度 | 描述 |
---|---|
EndpointName, VariantName |
针对指定端点和变体的 |
/aws/sagemaker/Endpoints
命名空间包含通过调用 InvokeEndpoint 获得的以下实例指标。
指标按 1 分钟一次的频率提供。
有关 CloudWatch 指标的保留期的信息,请参阅《Amazon CloudWatch API 参考》中的 GetMetricStatistics。
多模型端点模型实例指标
指标 | 描述 |
---|---|
LoadedModelCount |
多模型端点的容器中加载的模型数。此指标是按实例发射的。 周期为 1 分钟的“Average”统计数据指示每个实例加载的平均模型数。 “Sum”统计数据指示在端点中的所有实例上加载的模型总数。 此指标跟踪的模型不一定是唯一的,因为可能在端点的多个容器中加载模型。 单位:无 有效统计数据:Average、Sum、Min、Max、Sample Count |
CPUUtilization |
每个 CPU 核心利用率的总和。每个核心的 CPU 利用率范围均为 0 – 100。例如,如果有四个 CPU, 对于端点变体,该值是实例上的主容器和辅助容器的 CPU 利用率的总和。 单位:百分比 |
MemoryUtilization |
实例上的容器所使用的内存的百分比。此值范围为 0% – 100%。 对于端点变体,该值是实例上的主容器和辅助容器的内存利用率的总和。 单位:百分比 |
DiskUtilization |
实例上容器所使用的磁盘空间的百分比。此值范围为 0%–100%。 对于端点变体,该值是实例上的主容器和辅助容器的磁盘空间利用率的总和。 单位:百分比 |
GPU 多模型端点部署的 CloudWatch 指标
您可以在 GPU 支持的多模型端点上监控以下指标。
AWS/SageMaker
命名空间包含通过调用 InvokeEndpoint 获得的以下模型加载指标。
指标按 1 分钟一次的频率提供。
有关 CloudWatch 指标的保留期的信息,请参阅《Amazon CloudWatch API 参考》中的 GetMetricStatistics。
多模型端点模型加载指标
指标 | 描述 |
---|---|
ModelLoadingWaitTime |
调用请求等待下载和/或加载目标模型以执行推理的间隔时间。 单位:微秒 有效统计数据:Average、Sum、Min、Max、Sample Count |
ModelUnloadingTime |
通过容器的 单位:微秒 有效统计数据:Average、Sum、Min、Max、Sample Count |
ModelDownloadingTime |
从 Amazon Simple Storage Service (Amazon S3) 下载模型所花费的时间间隔。 单位:微秒 有效统计数据:Average、Sum、Min、Max、Sample Count |
ModelLoadingTime |
通过容器的 单位:微秒 有效统计数据:Average、Sum、Min、Max、Sample Count |
ModelCacheHit |
发送到已加载模型的多模型端点的 “Average”统计数据显示已加载模型的请求的比率。 单位:无 有效统计数据:Average、Sum、Sample Count |
多模型端点模型加载指标的维度
维度 | 描述 |
---|---|
EndpointName, VariantName |
针对指定端点和变体的 |
/aws/sagemaker/Endpoints
命名空间包含通过调用 InvokeEndpoint 获得的以下实例指标。
指标按 1 分钟一次的频率提供。
有关 CloudWatch 指标的保留期的信息,请参阅《Amazon CloudWatch API 参考》中的 GetMetricStatistics。
多模型端点模型实例指标
指标 | 描述 |
---|---|
LoadedModelCount |
多模型端点的容器中加载的模型数。此指标是按实例发射的。 周期为 1 分钟的“Average”统计数据指示每个实例加载的平均模型数。 “Sum”统计数据指示在端点中的所有实例上加载的模型总数。 此指标跟踪的模型不一定是唯一的,因为可能在端点的多个容器中加载模型。 单位:无 有效统计数据:Average、Sum、Min、Max、Sample Count |
CPUUtilization |
每个单独的 CPU 核心利用率的总和。每个核心的 CPU 利用率范围均为 0 – 100。例如,如果有四个 CPU, 对于端点变体,该值是实例上的主容器和辅助容器的 CPU 利用率的总和。 单位:百分比 |
MemoryUtilization |
实例上的容器所使用的内存的百分比。此值范围为 0% – 100%。 对于端点变体,该值是实例上的主容器和辅助容器的内存利用率的总和。 单位:百分比 |
GPUUtilization |
实例上的容器所使用的 GPU 单位的百分比。该值范围在 0 – 100 之间,并且乘以 GPU 数目。例如,如果有四个 GPU, 对于端点变体,该值是实例上的主容器和辅助容器的 GPU 利用率的总和。 单位:百分比 |
GPUMemoryUtilization |
实例上的容器所使用的 GPU 内存的百分比。该值范围在 0 – 100 之间,并且乘以 GPU 数目。例如,如果有四个 GPU, 对于端点变体,该值是实例上的主容器和辅助容器的 GPU 内存利用率的总和。 单位:百分比 |
DiskUtilization |
实例上容器所使用的磁盘空间的百分比。此值范围为 0%–100%。 对于端点变体,该值是实例上的主容器和辅助容器的磁盘空间利用率的总和。 单位:百分比 |