错误排查 - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

错误排查

此部分包含的信息介绍如何了解和预防常见错误,这些错误所生成的错误消息,以及如何解决这些错误的指南。继续之前,请问自己以下问题:

你在部署模型之前遇到错误吗? 如果是的话,请参阅排查 Neo 编译错误.

编译模型后你遇到错误吗? 如果是的话,请参阅排查 Neo 推理错误.

你在尝试为 Amberlla 设备编译模型时遇到错误吗? 如果是的话,请参阅解决 Amparlla 错误.

错误分类类型

此列表对您可能从 Neo 收到的用户错误 进行了分类。这包括各个所支持框架的访问和权限错误以及加载错误。所有其他错误为系统错误

Neo 直接传递来自相关服务的这些错误。

  • 调用 sts:AssumeRole 时拒绝访问

  • 任何 400调用 Amazon S3 下载或上传客户端模型时错误

  • PassRole 错误

假设 Neo 编译器成功从 Amazon S3 加载 .tar.gz,请检查 tarball 是否包含编译所需的文件。检查标准特定于框架:

  • TensorFlow:仅需要 Protobuf 文件(*.pb 或 *.pbtxt)。对于保存的模型,需要一个变量文件夹。

  • PyTorch:只需要一个 Pytorch 文件 (*.pth)。

  • MXNET:只需要一个符号文件 (*.json) 和一个参数文件 (*.params)。

  • XGBoost:仅需要一个 XGBoost 模型文件 (*.model)。输入模型有大小限制。

假设 Neo 编译器成功从 Amazon S3 加载 .tar.gz,并且 tarball 包含编译所需的文件。检查标准是:

  • OperatorNotImplemented:运算符尚未实施。

  • OperatorAttributeNotImplemented:指定运算符中的属性尚未实施。

  • OperatorAttributeRequired:对于内部符号图,某个属性是必需的,但未在用户输入模型图中列出。

  • OperatorAttributeValueNotValid:特定运算符中属性的值无效。