对 Amazon Outposts 上的 Amazon EKS 的本地集群进行故障排除 - Amazon EKS
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 Amazon Web Services 服务入门

对 Amazon Outposts 上的 Amazon EKS 的本地集群进行故障排除

本主题介绍您在使用本地集群时可能看到的一些常见错误,以及如何解决这些问题。虽然本地集群与云中的 Amazon EKS 集群相似,但在 Amazon EKS 服务托管本地集群的方式上存在一些差异。

本地集群是通过 Amazon EKS API 创建的,但以异步方式执行。这意味着对于本地集群,对 Amazon EKS API 的请求会立即返回,并且可能成功、快速失效机制(输入验证错误),或者稍后在执行该请求期间出现描述性验证错误而失败。此行为与 Kubernetes API 的行为相似。

本地集群不会过渡到 FAILED 状态。Amazon EKS 服务尝试以连续方式协调集群状态与用户请求的所需状态。因此,本地集群可能会长时间保持在 CREATING 状态,直到根本问题得到解决为止。

可以使用 describe-cluster Amazon EKS Amazon CLI 命令发现本地集群问题。本地集群问题将由 describe-cluster 命令响应的 cluster.health 字段显示。此字段中包含的消息包括错误代码、描述性消息和相关的资源 ID。此信息将仅通过 Amazon EKS API 和 Amazon CLI 提供。在以下示例中,将 my-cluster 替换为您的本地集群的名称。

aws eks describe-cluster --name my-cluster --query 'cluster.health'

以下是可能返回的输出的示例。

{ "issues": [ { "code": "ConfigurationConflict", "message": "The instance type 'm5.large' is not supported in Outpost 'my-outpost-arn'.", "resourceIds": [ "my-cluster-arn" ] } ] }

如果问题无法修复,您可能需要删除该本地集群,然后创建一个新的本地集群。例如,尝试使用您的 Outpost 上不可用的实例类型预调配集群。下表包括常见的运行状况相关错误:

错误情形 代码 消息 ResourceIds

提供的子网不存在

ResourceNotFound

The subnet ID subnet-id does not exist

所有提供的子网 ID

提供的子网不属于同一 VPC

ConfigurationConflict

Subnets specified must belong to the same VPC

所有提供的子网 ID

提供的某些子网不属于指定的 Outpost

ConfigurationConflict

Subnet subnet-id expected to be in outpost-arn, but is in other-outpost-arn

子网 ID 有问题

提供的某些子网不属于任何 Outpost

ConfigurationConflict

Subnet subnet-id is not part of any Outpost

子网 ID 有问题

提供的某些子网没有足够的空闲地址来支持为控制面板实例创建弹性网络接口

ResourceLimitExceeded

The specified subnet does not have enough free addresses to satisfy the request.

子网 ID 有问题

您的 Outpost 上不支持指定的控制面板实例类型

ConfigurationConflict

The instance type type is not supported in Outpost outpost-arn

集群 ARN
您终止了控制面板 Amazon EC2 实例,或 run-instance 已成功但观察到的状态更改为 Terminated。在您的 Outpost 重新连接并且 Amazon EBS 内部错误导致 Amazon EC2 内部工作流失败后,这种情况可能会发生一段时间。

InternalFailure

EC2 instance state "Terminated" is unexpected

集群 ARN

您的 Outpost 上容量不足。在集群创建期间,当 Outpost 与 Amazon Web Services 区域 断开连接时,也会发生这种情况。

ResourceLimitExceeded

There is not enough capacity on the Outpost to launch or start the instance.

集群 ARN
您的账户超出了您的安全组限制

ResourceLimitExceeded

Amazon EC2 API 返回的错误消息 目标 VPC ID
您的账户超出了您的弹性网络接口限制

ResourceLimitExceeded

Amazon EC2 API 返回的错误消息 目标子网 ID

无法通过 Amazon Systems Manager 访问控制面板实例。有关分辨率的信息,请参阅 无法通过 Amazon Systems Manager 访问控制面板实例

ClusterUnreachable

无法通过 SSM 访问 Amazon EKS 控制面板实例。请验证您的 SSM 和网络配置,并参考 Outpost 上的 EKS 故障排除文档。

Amazon EC2 实例 ID
描述托管安全组或弹性网络接口时出错

基于 Amazon EC2 客户端错误代码。

Amazon EC2 API 返回的错误消息 所有托管安全组 ID
授权或撤销安全组入口规则时出错。这既适用于集群安全组,也适用于控制面板安全组。 基于 Amazon EC2 客户端错误代码。 Amazon EC2 API 返回的错误消息 安全组 ID 有问题
删除控制面板实例的弹性网络接口时出错 基于 Amazon EC2 客户端错误代码。 Amazon EC2 API 返回的错误消息 弹性网络接口 ID 有问题

下表列出了来自 describe-cluster 响应的运行状况字段中呈现的其他 Amazon Web Services 的错误:

Amazon EC2 错误代码 集群运行状况问题代码 其他信息

AuthFailure

AccessDenied

可能会因各种原因而发生这些情况。发生这些情况的最常见原因是,如果从控制面板实例中意外删除服务用于缩小服务相关角色策略范围的标签。如果发生这种情况,Amazon EKS 将失去继续管理和监控这些 Amazon 资源的权限

UnauthorizedOperation

AccessDenied

可能会因各种原因而发生这些情况。发生这些情况的最常见原因是,如果从控制面板实例中意外删除服务用于缩小服务相关角色策略范围的标签。如果发生这种情况,Amazon EKS 将失去继续管理和监控这些 Amazon 资源的权限

InvalidSubnetID.NotFound

ResourceNotFound

指安全组的入口规则

InvalidPermission.NotFound

ResourceNotFound

指安全组的入口规则

InvalidGroup.NotFound

ResourceNotFound

指安全组的入口规则

InvalidNetworkInterfaceID.NotFound

ResourceNotFound

指安全组的入口规则

InsufficientFreeAddressesInSubnet

ResourceLimitExceeded

子网资源限制

InsufficientCapacityOnOutpost

ResourceLimitExceeded

Outpost 容量限制

NetworkInterfaceLimitExceeded

ResourceLimitExceeded

弹性网络接口限制

SecurityGroupLimitExceeded

ResourceLimitExceeded

安全组限制

VcpuLimitExceeded

ResourceLimitExceeded

在新账户中创建 Amazon EC2 实例时,将观察到此情况。错误可能类似于“You have requested more vCPU capacity than your current vCPU limit of 32 allows for the instance bucket that the specified instance type belongs to. Please visit http://aws.amazon.com/contact-us/ec2-request to request an adjustment to this limit."

InvalidParameterValue

ConfigurationConflict

如果 Outpost 上不支持指定的实例类型,Amazon EC2 将返回此错误代码。

所有其他故障

InternalFailure

None(无)

本地集群需要的权限和策略与云中的 Amazon EKS 集群需要的权限和策略不同。当集群创建失败并显示 InvalidPermissions 结果时,请检查您正在使用的集群角色是否附加了 AmazonEKSLocalOutpostClusterPolicy 托管策略。所有其他 API 调用都需要与云中的 Amazon EKS 集群相同的权限集。

本地集群创建时间可能会有所不同,具体取决于您的网络配置、Outpost 配置以及您尝试创建的集群的特征。应该创建一个本地集群,并在 15–20 分钟内变为 ACTIVE。如果本地集群仍然处于 CREATING 状态,则调用 describe-cluster 可能会在 cluster.health 字段中提供原因提示。

以下是最常见的问题。

Amazon Systems Manager (Systems Manager)

  • 无法使用 Systems Manager 从 Amazon Web Services 区域 连接到控制面板实例。您可以通过从区域内的堡垒主机调用 aws ssm start-session --target instance-id 来对此进行验证。如果该操作失败,请确定 Systems Manager 是否是在控制面板实例上运行,并请参考《Amazon Systems Manager 用户指南》以获取进一步帮助。或者,您也可以直接删除此集群并尝试重新创建该集群。

  • 控制面板实例可能无法访问互联网。检查您在创建集群时提供的子网是否配置了 NAT 网关,以及其 VPC 是否配置了互联网网关。使用 VPC Reachability Analyzer 验证控制面板实例是否可以访问互联网网关。有关更多信息,请参阅 VPC Reachability Analyzer 入门

  • 提供的角色 ARN 缺少策略。检查以确定是否已从角色中移除了 Amazon 托管策略:AmazonEKSLocalOutpostClusterPolicy。发生此情况也可能是由于 Amazon CloudFormation 堆栈配置错误。

在创建集群时错误配置和指定了多个子网

  • 提供的所有子网都必须与同一 Outpost 关联,并且能够相互访问。如果在创建集群期间指定了多个子网,Amazon EKS 会尝试将控制面板实例分布到多个子网中。

  • 在弹性网络接口上应用 Amazon EKS 托管安全组。可能还有其他配置元素与其冲突,如 NACL 防火墙规则。

VPC 和子网 DNS 配置配置错误或缺失

审核Amazon EKS 本地集群 VPC 及子网的要求和注意事项

常见原因:

  • AMI 问题

    • 您使用的是不受支持的 AMI。您一定在使用 v20220620 或更高版本的 Amazon EKS 优化版 Amazon Linux AMI Amazon EKS 优化 Amazon Linux。

    • 如果您使用 Amazon CloudFormation 模板创建您的节点,请确保它没有使用不受支持的 AMI。

  • 缺失 Amazon IAM 身份验证器 ConfigMap - 如果缺失,则您需要创建它。有关更多信息,请参阅将 aws-authConfigMap 应用到集群

  • 使用了错误的安全组 - 请确保将 eks-cluster-sg-cluster-name-uniqueid 用于您的 Worker 节点的安全组。将通过 Amazon CloudFormation 更改所选的安全组,以便在每次使用堆栈时允许新的安全组。

  • 遵循意外的私有链接 VPC 步骤 - 传递错误的 CA 数据 (--b64-cluster-ca) 或 API 端点 (--apiserver-endpoint)。

  • 容器组 (pod) 安全策略配置错误

    • CoreDNS 和 Amazon VPC CNI plugin for Kubernetes 守护程序集必须在节点上运行,以使节点能够正确加入集群并与之通信。

    • Amazon VPC CNI plugin for Kubernetes 需要一些特权联网功能才能正常运行。您可以使用以下命令查看特权联网功能:kubectl describe psp eks.privileged

    我们建议您不要修改默认容器组 (pod) 安全策略。有关更多信息,请参阅Pod 安全策略

当 Outpost 与其 Amazon Web Services 区域 断开连接时,Kubernetes 集群应继续正常工作,但您应该熟悉 为网络断开连接做好准备。如果您遇到其他问题,您应该联系 Amazon 支持部门。它可以指导您如何下载和运行日志收集工具,使您能从 Kubernetes 集群控制面板实例中收集日志,并将它们发送到 Amazon 支持部门以供进一步调查。

当无法通过 Amazon Systems Manager (Systems Manager) 访问 Amazon EKS 控制面板实例时,Amazon EKS 将为您的集群显示以下错误。

Amazon EKS control plane instances are not reachable through SSM. Please verify your SSM and network configuration, and reference the EKS on Outposts troubleshooting documentation.

要解决此问题,请确保您的 VPC 和子网满足 Amazon EKS 本地集群 VPC 及子网的要求和注意事项 中的要求,并且您已完成《Amazon Systems Manager 用户指南》内设置 Session Manager 中的步骤。