错误排查 - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 Amazon Web Services 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

错误排查

此部分包含的信息介绍如何了解和预防常见错误,这些错误所生成的错误消息,以及如何解决这些错误的指南。在继续前进之前,请问自己以下问题:

在部署模型之前,您是否遇到错误? 如果是,请参阅Neo 编译错误问题排查.

编译模型后,您是否遇到错误? 如果是,请参阅疑难解答 Neo 推断错误.

你是否遇到错误,试图编译 Ambarella 设备的模型? 如果是,请参阅Ambarella 错误问题排查.

错误分类类型

此列表对您可能从 Neo 收到的用户错误 进行了分类。这包括各个所支持框架的访问和权限错误以及加载错误。所有其他错误为系统错误

Neo 直接传递来自相关服务的这些错误。

  • 调用 sts:AssumeRole 时拒绝访问

  • 任何 400调用 Amazon S3 下载或上传客户端模型时出现错误

  • PassRole 错误

假设 Neo 编译器成功从 Amazon S3 中加载 .tar.gz,请检查 tarball 是否包含编译所需的文件。检查标准特定于框架:

  • TensorFlow:仅需要原始文件(*.pb 或 *.pbtxt)。对于已保存模型,需要一个变量文件夹。

  • PyTorch:只需要一个火炬文件 (*.pth)。

  • MXNET:仅需要一个符号文件 (*.jams) 和一个参数文件 (*.params)。

  • XGBoost:只需要一个 XGBoost 模型文件(*.model)。输入模型有大小限制。

假设 Neo 编译器成功从 Amazon S3 中加载 .tar.gz,并且 tarball 包含编译所需的文件。检查标准是:

  • OperatorNotImplemented:尚未实施某个运算符。

  • OperatorAttributeNotImplemented:指定运算符中的属性尚未实施。

  • OperatorAttributeRequired:对于内部符号图,某个属性是必需的,但未在用户输入模型图中列出。

  • OperatorAttributeValueNotValid:特定运算符中属性的值无效。