ECS Anywhere 故障排除 - Amazon Elastic Container Service
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 Amazon Web Services 服务入门

ECS Anywhere 故障排除

ECS Anywhere 提供外部实例,例如,本地部署服务器或虚拟机 (VM) 添加到 Amazon ECS 集群。以下是您可能遇到的常见问题以及一般故障排除建议。

外部实例注册问题

向 Amazon ECS 集群注册外部实例时,必须满足以下要求:

  • 必须检索 Systems Manager 激活,其中包含激活 ID激活码。您可以用它将外部实例注册为 Systems Manager 托管实例。请求 Systems Manager 激活时,您可以指定注册限制和过期日期。注册限制指定可以使用激活注册的最大实例数。对此,原定设置值为 1 实例。过期日期指定激活的过期时间。原定设置值为 24 小时。如果您用于注册外部实例的 Systems Manager 激活无效,请求新实例。有关更多信息,请参阅将外部实例注册到集群

  • IAM policy 用于为外部实例提供与 Amazon API 通信所需的权限。如果未正确创建此托管策略且不包含所需的权限,则外部实例注册失败。有关更多信息,请参阅外部实例所需的 IAM 权限

  • Amazon ECS 提供了一个安装脚本,用于在您的外部实例上安装 Docker、Amazon ECS 容器代理和 Systems Manager Agent。如果安装脚本失败,则脚本很可能无法在同一实例上再次运行,而不会发生错误。如果发生这种情况,请按照清理过程清除 Amazon 资源,这样,您可以再次运行安装脚本。有关更多信息,请参阅注销外部实例

    注意

    请注意,如果成功请求安装脚本并使用了 Systems Manager 激活,则第二次运行安装脚本将使用 Systems Manager 激活。这反过来可能会让您达到该激活的注册限制。如果达到限制,必须创建一个新激活。

  • 在外部实例上运行 GPU 工作负载的安装脚本时,如果没有检测到或正确配置 NVIDIA 驱动程序,将发生错误。安装脚本使用 nvidia-smi 命令来确认 NVIDIA 驱动程序的存在。

外部实例网络问题

要传达任何更改,您的外部实例需要与 Amazon 连接的网络。如果您的外部实例失去了与 Amazon 的网络连接,在手动停止之前,在您的实例上运行的任务将继续运行。和 Amazon 的连接恢复时,Amazon ECS 容器代理和 Systems Manager Agent 在外部实例上使用的 Amazon 凭据将自动续订。有关用来沟通外部实例和 Amazon 的 Amazon 域的更多信息,请参阅 与 ECS Anywhere 联网

在外部实例上运行任务时出现问题

如果您的任务或容器无法在外部实例上运行,最常见的原因是网络或权限相关。如果您的容器从 Amazon ECR 中提取其镜像或配置为将容器日志发送到 CloudWatch Logs,则您的任务定义必须指定一个有效的任务执行 IAM 角色。如果没有有效的任务执行 IAM 角色,您的容器将无法启动。有关更多信息,请参阅条件 IAM 权限。有关网络相关问题的更多信息,请参阅 外部实例网络问题

重要

Amazon ECS 提供 Amazon ECS 日志收集工具。您可以用它从外部实例收集日志进行故障排除。有关更多信息,请参阅Amazon ECS 日志收集器