通过 Amazon 进行可观察性 CloudWatch - 亚马逊 SageMaker AI
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

通过 Amazon 进行可观察性 CloudWatch

使用 Amazon CloudWatch Container Insigh ts 收集、汇总和汇总来自与集群关联的 EKS 集群上的容器化应用程序和微服务的指标和日志。 HyperPod

Amazon CloudWatch Insights 收集计算资源的指标,例如 CPU、内存、磁盘和网络。Container Insights 还提供诊断信息(如容器重新启动失败),以帮助您查明问题并快速解决问题。您还可以对容器洞察收集的指标设置 CloudWatch 警报。

要查找指标的完整列表,请参阅《Amazon EKS 用户指南》中的 Amazon EKS and Kubernetes Container Insights 指标

安装 CloudWatch 容器见解

集群管理员用户必须按照安装 CloudWatch 代理中的说明设置 CloudWatch Container Insights,使用 Amazon O CloudWatch bservability EKS 插件或《CloudWatch 用户指南》中的 Helm 图表。有关 Amazon EKS 附加组件的更多信息,另请参阅亚马逊 EKS 用户指南中的安装亚马逊 O CloudWatch bservability EKS 附加组件

安装完成后,验证 O CloudWatch bservability 插件在 EKS 集群插件选项卡中是否可见。控制面版加载可能需要几分钟时间。

注意

SageMaker HyperPod 需要 CloudWatch Insight v2.0.1-eksbuild.1 或更高版本。

CloudWatch Observability service card showing status, version, and IAM role information.

访问 CloudWatch 容器见解日志

  1. 打开 CloudWatch 控制台,网址为https://console.aws.amazon.com/cloudwatch/

  2. 选择 Logs(日志),然后选择 Log groups(日志组)。

将 HyperPod 集群与 Amazon Conta CloudWatch iner Insights 集成后,您可以按以下格式访问相关的日志组:/aws/containerinsights /<eks-cluster-name>/*。在此日志组中,您可以查找和浏览各种类型的日志,例如性能日志、主机日志、应用程序日志和数据面板日志。