Amazon CloudWatch
用户指南
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 AWS 服务入门

Container Insights 问题排查

如果在使用 Container Insights 时遇到问题,以下部分可为您提供帮助。

在 Amazon EKS 或 Kubernetes 上部署失败

如果未在 Kubernetes 集群上正确部署该代理,请尝试执行以下操作:

  • 运行以下命令以获取 pod 列表。

    kubectl get pods -n amazon-cloudwatch
  • 运行以下命令并在输出底部检查事件。

    kubectl describe pod pod-name -n amazon-cloudwatch
  • 运行以下命令以检查日志。

    kubectl logs pod-name -n amazon-cloudwatch

未经授权的 panic:无法从 kubelet 检索 cadvisor 数据

如果您的部署失败,并显示错误 Unauthorized panic: Cannot retrieve cadvisor data from kubelet,则您的 kubelet 可能未启用 Webhook 授权模式。Container Insights 需要此模式。有关更多信息,请参阅 验证先决条件

在已删除和重新创建的集群上部署 Container Insights

如果删除未启用 Container Insights 的现有集群,并使用相同名称重新创建它,则无法在重新创建此集群时在此新集群上启用 Container Insights。您可以通过重新创建来启用它,然后输入以下命令:

aws ecs update-cluster-settings --cluster myCICluster --settings name=containerInsights,value=enabled

指标未显示在控制台中

如果您在 AWS 管理控制台中未看到任何 Container Insights 指标,请确保已完成 Container Insights 的设置。在完全设置 Container Insights 之前,不会显示指标。有关更多信息,请参阅 设置 Container Insights

CloudWatch 代理上的 CrashLoopBackoff 错误

如果您看到 CloudWatch 代理出现 CrashLoopBackOff 错误,请确保您的 IAM 权限设置正确。有关更多信息,请参阅 验证先决条件

CloudWatch 代理或 FluentD Pod 卡在待处理状态

如果您有一个 CloudWatch 代理或 FluentD pod 卡在 Pending 状态或出现 FailedScheduling 错误,请根据代理所需的内核数量和 RAM 量确定您的节点是否有足够的计算资源。使用以下命令描述此 pod:

kubectl describe pod cloudwatch-agent-85ppg -n amazon-cloudwatch