监控亚马逊 SageMaker - 亚马逊 SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

监控亚马逊 SageMaker

监控是保持和其他Amazon解决方案的可靠性、可用性和性能的重要 SageMaker 环节。 Amazon提供了以下监控工具来监控 SageMaker、在出现错误时进行报告并在适当的时候自动执行操作:

  • Amazon Amazon 实时 CloudWatch监控您的Amazon资源以及Amazon在上运行的应用程序。您可以收集和跟踪指标,创建自定义的控制面板,以及设置警报以在指定的指标达到您指定的阈值时通知您或采取措施。例如,您可以具有 CloudWatch Amazon EC2 实例的 CPU 使用率或其他指标并且在需要时自动启动新实例。有关更多信息,请参阅 Amazon CloudWatch 用户指南

  • Amazon Lo CloudWatch gs 使您能够监控、存储和访问来自 EC2 实例和其他来源的日志文件。Amazon CloudTrail CloudWatch 日志可以监控日志文件中的信息,并在达到特定阈值时通知您。您还可以在高持久性存储中检索您的日志数据。有关更多信息,请参阅 Amazon CloudWatch Logs 用户指南

  • Amazon CloudTrail 捕获由您的 Amazon 账户或代表该账户发出的 API 调用和相关事件,并将日志文件传输到您指定的 Simple Storage Service(Amazon S3)存储桶。您可以标识哪些用户和账户调用了 Amazon、从中发出调用的源 IP 地址以及调用的发生时间。有关更多信息,请参阅 Amazon CloudTrail 用户指南

  • CloudWatch 事件提供近乎实时的系统事件流,这些系统事件描述了Amazon资源的更改。创建 CloudWatch 事件规则对 SageMaker训练、超参数调整或批量转换作业中的状态变化做出反应