排查 Amazon ECS Anywhere 问题 - Amazon Elastic Container Service
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

排查 Amazon ECS Anywhere 问题

Amazon ECS Anywhere 支持向 Amazon ECS 集群注册外部实例,如本地部署服务器或虚拟机(VM)。以下是您可能遇到的常见问题以及一般故障排除建议。

外部实例注册问题

向 Amazon ECS 集群注册外部实例时,必须满足以下要求:

  • 必须检索 Amazon Systems Manager 激活,其中包含激活 ID激活码。您可以用它将外部实例注册为 Systems Manager 托管实例。请求 Systems Manager 激活时,可指定注册限制和过期日期。注册限制指定可以使用激活注册的最大实例数。注册限制的默认值为 1 实例。过期日期指定激活的过期时间。原定设置值为 24 小时。如果您用于注册外部实例的 Systems Manager 激活无效,请求新实例。有关更多信息,请参阅 将外部实例注册到集群

  • IAM 策略用于为外部实例提供与 Amazon API 操作通信所需的权限。如果未正确创建此托管策略且不包含所需的权限,则外部实例注册失败。有关更多信息,请参阅 ECS Anywhere IAM 角色

  • Amazon ECS 提供了一个安装脚本,用于在您的外部实例上安装 Docker、Amazon ECS 容器代理和 Systems Manager Agent。如果安装脚本失败,则脚本很可能无法在同一实例上再次运行,而不会发生错误。如果发生这种情况,请按照清理过程清除 Amazon 资源,这样,您可以再次运行安装脚本。有关更多信息,请参阅 注销外部实例

    注意

    请注意,如果成功请求安装脚本并使用了 Systems Manager 激活,则第二次运行安装脚本将使用 Systems Manager 激活。这反过来可能会让您达到该激活的注册限制。如果达到限制,必须创建一个新激活。

  • 在外部实例上运行 GPU 工作负载的安装脚本时,如果没有检测到或正确配置 NVIDIA 驱动程序,将发生错误。安装脚本使用 nvidia-smi 命令来确认 NVIDIA 驱动程序的存在。

外部实例网络问题

要传达任何更改,您的外部实例需要与 Amazon 连接的网络。如果您的外部实例失去了与 Amazon 的网络连接,在手动停止之前,在您的实例上运行的任务将继续运行。和 Amazon 的连接恢复时,Amazon ECS 容器代理和 Systems Manager Agent 在外部实例上使用的 Amazon 凭据将自动续订。有关用来沟通外部实例和 Amazon 的 Amazon 域的更多信息,请参阅 与 ECS Anywhere 联网

在外部实例上运行任务时出现问题

如果您的任务或容器无法在外部实例上运行,最常见的原因是网络或权限相关。如果您的容器从 Amazon ECR 中提取其镜像或配置为将容器日志发送到 CloudWatch Logs,则您的任务定义必须指定一个有效的任务执行 IAM 角色。如果没有有效的任务执行 IAM 角色,您的容器将无法启动。有关网络相关问题的更多信息,请参阅 外部实例网络问题

重要

Amazon ECS 提供 Amazon ECS 日志收集工具。您可以用它从外部实例收集日志进行故障排除。有关更多信息,请参阅 Amazon ECS 日志收集器