Dee Amazon p Learning Containers 中的监控和使用跟踪 - Amazon 深度学习容器
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

Dee Amazon p Learning Containers 中的监控和使用跟踪

你的 D Amazon eep Learning Containers 不附带监控工具。有关监控的信息,请参阅 GPU 监控和优化、监控 Amazon EC2、监控 Amazon EC S、监控 Ama zon EKS 和监控 Amazon SageMaker Studio

使用情况跟踪

Amazon 使用客户反馈和使用信息来提高我们向客户提供的服务和软件的质量。我们在支持的 Dee Amazon p Learning Containers 中增加了使用数据收集功能,以便更好地了解客户的使用情况并指导未来的改进。默认情况下,Deep Learning Containers 的使用情况跟踪处于激活状态。客户可以随时更改其设置,以激活或停用使用情况跟踪。

Dee Amazon p Learning Containers 的使用情况跟踪会收集用于容器的实例 ID框架、框架版本、容器类型和 Python 版本。 Amazon 还会记录它接收此元数据的事件时间。

不会收集或保留有关容器内使用的命令的信息。不会收集或保留有关容器的其他信息。

要选择退出使用情况跟踪,请将OPT_OUT_TRACKING环境变量设置为 true。

OPT_OUT_TRACKING=true

故障率跟踪

使用第一方 Dee Amazon SageMaker Amazon p Learning Containers 容器时, SageMaker 团队将收集故障率元数据以提高 Amazon 深度学习容器的质量。默认情况下,Dee Amazon p Learning Containers 的故障率跟踪处于活动状态。客户可以在创建 Amazon SageMaker 端点时更改其设置以激活或停用故障率跟踪。

Dee Amazon p Learning Containers 的故障率跟踪会收集实例 IDModelServer 名称ErrorTypeModelServer 版本ErrorCode。 Amazon 还会记录它接收此元数据的事件时间。

不会收集或保留有关容器内使用的命令的信息。不会收集或保留有关容器的其他信息。

要选择退出故障率跟踪,请将OPT_OUT_TRACKING环境变量设置为true

OPT_OUT_TRACKING=true

以下框架版本中的使用情况跟踪

不再支持以下框架版本:

  • TensorFlow 1.15

  • TensorFlow 2.0

  • TensorFlow 2.1

  • PyTorch 1.2

  • PyTorch 1.3.1

  • MxNet 1.6

有关我们支持政策的完整说明,请参阅框架Support 政策

虽然我们建议更新到支持的 Deep Learning Containers,但要选择退出使用这些框架的 Deep Learning Containers 的使用情况跟踪,请将OPT_OUT_TRACKING环境变量设置为 true,然后使用自定义入口点来禁用对以下服务的调用: