Amazon Elastic Compute Cloud
用户指南(适用于 Linux 实例)
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 Amazon AWS 入门

问题排查

以下是常见的错误和故障排除步骤。

发出启动加速器的命令

确保您在可以使用 Amazon EI 加速器的区域中启动。有关更多信息,请参阅区域表

解决连接问题

如果您无法成功连接到加速器,请验证您已完成以下操作:

  • 您已为在其中启动实例的子网的 Amazon EI 设置 VPC 终端节点。

  • 您已为实例和 VPC 终端节点配置了安全组,具有允许 HTTPS(端口 443)通信的出站规则。您已配置了 VPC 终端节点安全组,具有允许 HTTPS 流量的入站规则。

  • 您已将具有“elastic-inference:Connect”权限的 IAM 实例角色添加到要连接到加速器的实例。

  • 您已检查 CloudWatch Logs 以验证您的加速器正常。来自 Amazon EC2 控制台的 EC2 详细信息包含指向 CloudWatch 的链接,允许您查看其关联加速器的运行状况。

解决不正常状态问题

如果 Amazon EI 加速器处于不正常状态,您可以使用以下故障排除步骤来解决问题。

停止和启动实例

如果您的 Amazon EI 加速器处于不正常状态,最简单的选项是停止并重新启动它。有关更多信息,请参阅停止和启动您的实例

警告

当您停止某个实例时,任何实例存储卷上的数据都将被擦除。如果实例存储卷上有任何您要保留的数据,请确保将其备份到持久性存储。

模型性能故障排查

Amazon EI 可加快由 TensorFlow 和 MXNet 等框架定义的操作。虽然 Amazon EI 可以加快大部分神经网络、数学、数组操作和控制流运算符的速度,但仍有许多 Amazon EI 不能加速的运算符。这包括与训练相关的运算符、输入/输出运算符以及 contrib 中的一些运算符。

当模型包含 Amazon EI 无法加速的运算符时,框架将在实例上运行它们。模型图形中这些运算符的频率和位置可能会对具有 Amazon EI 加速器的模型推理性能产生影响。如果您的模型已知可从 GPU 加速中获益但在 Amazon EI 上的表现不如人意,请联系 AWS Support 或 amazon-ei-feedback@amazon.com。

正在提交反馈

联系 AWS Support 或通过以下方式发送反馈:amazon-ei-feedback@amazon.com。