故障排除AmazonEKS 上的 Deep Learning Containers - Amazon 深度学习容器
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

故障排除AmazonEKS 上的 Deep Learning Containers

以下是使用时可能会在命令行中返回的常见错误AmazonAmazon EKS 群集上的 Deep Learning Containers。每个错误之后都是错误的解决方案。

Troubleshooting

设置错误

在 Amazon EKS 群集上设置 Deep Learning Containers 时,可能会返回以下错误。

  • 错误:注册表kubeflow不存在

    $ ks pkg install kubeflow/tf-serving ERROR registry 'kubeflow' does not exist

    要解决此错误,请运行以下命令。

    ks registry add kubeflow github.com/google/kubefl ow/tree/master/kubeflow
  • 错误:上下文超出截止日

    $ eksctl create cluster <args> [✖] waiting for CloudFormation stack "eksctl-training-cluster-1-nodegroup-ng-8c4c94bc" to reach "CREATE_COMPLETE" status: RequestCanceled: waiter context canceled caused by: context deadline exceeded

    要解决此错误,请验证是否超出您的账户的容量。你也可以尝试在其他区域创建集群。

  • Error: 与服务器本地主机:8080 的连接被拒绝

    $ kubectl get nodes The connection to the server localhost:8080 was refused - did you specify the right host or port?

    要解决此错误,请运行以下命令将集群复制到 Kubernetes 配置。

    cp ~/.kube/eksctl/clusters/<cluster-name> ~/.kube/config
  • 错误:处理对象:从群集中修补对象:将对象与现有状态合并:未授权

    $ ks apply default ERROR handle object: patching object from cluster: merging object with existing state: Unauthorized

    此错误是由于并发问题造成的,当具有不同授权或凭证凭证的多个用户试图在同一集群上启动作业时,便会发生此问题。验证您是否在正确的群集上启动作业。

  • Error: 无法创建应用程序;目录 '/家/ubuntu/kubeflow-tf-hvd' 已存在

    $ APP_NAME=kubeflow-tf-hvd; ks init ${APP_NAME}; cd ${APP_NAME} INFO Using context "arn:aws:eks:eu-west-1:999999999999:cluster/training-gpu-1" from kubeconfig file "/home/ubuntu/.kube/config" ERROR Could not create app; directory '/home/ubuntu/kubeflow-tf-hvd' already exists

    您可以放心地忽略此警告。但是,您可能需要对该文件夹执行额外的清理工作。要简化清理工作,请删除文件夹。

使用错误

ssh: Could not resolve hostname openmpi-worker-1.openmpi.kubeflow-dist-train-tf: Name or service not known

如果您在使用 Amazon EKS 群集时看到此错误消息,则针对此错误消息再运行一遍 NVIDIA 设备插件安装步骤。通过以下方式验证针对的是正确的集群:传入特定配置文件或切换活动集群到目标集群。

清理错误

清理 Amazon EKS 群集的资源时,可能会返回以下错误。

  • 错误:服务器没有资源类型”namspace"

    $ kubectl delete namespace ${NAMESPACE} error: the server doesn't have a resource type "namspace"

    验证命名空间的拼写是否正确。

  • 错误:服务器已要求客户端提供凭据

    $ ks delete default ERROR the server has asked for the client to provide credentials

    要解决此错误,请验证~/.kube/config指向正确的集群那Amazon已使用正确配置凭据aws configure或者通过出口Amazon环境变量。

  • 错误:从起始路径找到应用程序根目录። 找不到 ksonnet 项目

    $ ks delete default ERROR finding app root from starting path: : unable to find ksonnet project

    要解决此错误,请验证您是否位于 ksonnet 应用程序创建的目录中。这是在哪里的文件夹ks init运行了。

  • Error: 来自服务器的错误(未找到):找不到 pod “openmpi-master”

    $ kubectl logs -n ${NAMESPACE} -f ${COMPONENT}-master > results/benchmark_1.out Error from server (NotFound): pods "openmpi-master" not found

    此错误可能是由于在删除上下文后尝试访问资源引起的。删除默认上下文也会导致相应的资源也被删除。