错误排查 - Amazon SageMaker
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 AWS 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

错误排查

此部分包含的信息介绍如何了解和预防常见错误,这些错误所生成的错误消息,以及如何解决这些错误的指南。在继续操作之前,请先向自己询问以下问题:

在部署模型之前是否遇到错误? 如果是,请参阅排除 Neo 编译错误

在编译模型后是否遇到错误? 如果是,请参阅排除 Neo 推理错误

错误分类类型

此列表对您可能从 Neo 收到的用户错误 进行了分类。这包括各个所支持框架的访问和权限错误以及加载错误。所有其他错误为系统错误

Neo 直接传递来自相关服务的这些错误的错误。

  • 调用 sts:AssumeRole 时拒绝访问

  • 调用 Amazon S3 下载或上传客户端模型时出现的任何 400 错误

  • PassRole 错误

假设 Neo 编译器成功从 Amazon S3 加载了 .tar.gz,请检查 tarball 是否包含编译所需的文件。检查标准特定于框架:

  • TensorFlow:仅支持 protobuf 文件(*.pb 或 *.pbtxt)。对于保存的模型, 需要一个变量文件夹。

  • Pytorch:只需要一个 pytorch 文件 (*.pth)。

  • MXNET:仅需要一个符号文件 (*.json) 和一个参数文件 (*.params)。

  • XGBoost:仅需要一个 XGBoost 模型文件 (*.model)。输入模型有大小限制。

假设 Neo 编译器成功从 Amazon S3 加载了 .tar.gz,并且 tarball 包含编译所需的文件。检查标准是:

  • OperatorNotImplemented:尚未实施运算符。

  • OperatorAttributeNotImplemented:指定运算符中的属性尚未实现。

  • OperatorAttributeRequired:内部符号图需要属性,但它未在用户输入模型图中列出。

  • OperatorAttributeValueNotValid:特定运算符中属性的值无效。