深度学习 AMI
开发人员指南
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 AWS 服务入门

EKS 上的 AWS Deep Learning Containers故障排除

故障排除

设置错误

错误:错误。注册表 kubeflow 不存在

示例:

$ ks pkg install kubeflow/tf-serving ERROR registry 'kubeflow' does not exist

解决方案:运行以下命令。 

ks registry add kubeflow github.com/google/kubeflow/tree/master/kubeflow

错误:上下文超出截止日期

示例:

$ eksctl create cluster <args> [✖] waiting for CloudFormation stack "eksctl-training-cluster-1-nodegroup-ng-8c4c94bc" to reach "CREATE_COMPLETE" status: RequestCanceled: waiter context canceled caused by: context deadline exceeded

解决方案:验证是否超出您的账户的容量。在其他区域中重试该命令。 

$ kubectl get nodes The connection to the server localhost:8080 was refused - did you specify the right host or port?

解决方案:尝试运行 cp ~/.kube/eksctl/clusters/<name-of-cluster> ~/.kube/config

$ ks apply default ERROR handle object: patching object from cluster: merging object with existing state: Unauthorized

解决方案:这是一个并发问题,当具有不同授权/凭证的多个用户试图在同一集群上启动作业时,便会发生此问题。

$ APP_NAME=kubeflow-tf-hvd; ks init ${APP_NAME}; cd ${APP_NAME} INFO Using context "arn:aws:eks:eu-west-1:999999999999:cluster/training-gpu-1" from kubeconfig file "/home/ubuntu/.kube/config" ERROR Could not create app; directory '/home/ubuntu/kubeflow-tf-hvd' already exists

解决方案:忽略此警告。但是,您可能需要对该文件夹执行额外的清理工作。您可能需要删除该文件夹以简化清理。

使用错误

ssh: Could not resolve hostname openmpi-worker-1.openmpi.kubeflow-dist-train-tf: Name or service not known

解决方案:在使用 EKS 集群时,只要看到此错误消息,则针对 Kubernetes 安装步骤再运行一遍 NVIDIA 设备插件。通过以下方式确保针对的是正确的集群:传入特定配置文件或切换活动集群到目标集群。

清理错误

$ kubectl delete namespace ${NAMESPACE} error: the server doesn't have a resource type "namspace"

解决方案:检查命名空间的拼写。可能拼写有错误。

$ ks delete default ERROR the server has asked for the client to provide credentials

解决方案:确保 ~/.kube/config 指向正确的集群,并且已使用 aws configure 或通过导出 AWS 环境变量正确配置了 AWS 凭证。

$ ks delete default ERROR finding app root from starting path: : unable to find ksonnet project $ kubectl logs -n ${NAMESPACE} -f ${COMPONENT}-master > results/benchmark_1.out Error from server (NotFound): pods "openmpi-master" not found

解决方案:确保正确地更改目录到创建的 ksonnet 应用程序(执行 ks init 的文件夹),同时要注意,删除默认上下文将导致相应的资源被删除。

$ ks component rm openmpi ERROR finding app root from starting path: : unable to find ksonnet project

解决方案:确保正确地更改目录到创建的 ksonnet 应用程序(执行 ks init 的文件夹)。

本页内容: