本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
问题排查
如果您在 Amazon Batc SageMaker h Transform 中遇到错误,请参阅以下故障排除提示。
最大超时错误数
如果您在运行批处理转换作业时遇到最大超时错误,请尝试以下方法:
从单条记录
BatchStrategy
、您在MaxPayloadInMB
参数中指定的默认值 (6 MB) 或更小的批处理大小和一个小样本数据集开始。调整最大超时参数InvocationsTimeoutInSeconds
(最长为 1 小时),直到收到成功的调用响应。成功收到调用响应后,将
MaxPayloadInMB
(最大值为 100 MB)和InvocationsTimeoutInSeconds
参数一起增加,以找到可以支持所需模型超时的最大批次大小。您可以在此步骤BatchStrategy
中使用单记录或多记录。注意
超过
MaxPayloadInMB
限制会导致错误。如果大型数据集无法拆分、SplitType
参数设置为无,或者数据集中的单个记录超过限制,则可能会发生这种情况。(可选)调整可以发送到批处理转换作业中每个实例的最大
MaxConcurrentTransforms
parallel 请求数。但是,的值MaxConcurrentTransforms * MaxPayloadInMB
不得超过 100 MB。
输出不完整
SageMaker 使用 Amazon S3 分段上传 API 将批量转换任务的结果上传到 Amazon S3。如果出现错误,上传的结果将从 Amazon S3 中删除。在某些情况下,例如网络中断时,不完整的分段上传可能会保留在 Amazon S3 中。如果您有多个输入文件,但其中一些文件无法通过 Batc SageMaker h Transform 处理,也可能会出现上传不完整。无法处理的输入文件在 Amazon S3 中将没有相应的输出文件。
为避免产生存储费用,我们建议您将 S3 存储桶策略添加到 S3 存储桶生命周期规则中。此策略会删除可能存储在 S3 存储桶中的未完成分段上传。有关更多信息,请参阅对象生命周期管理。
Job 显示为failed
如果批处理转换作业由于数据集问题而无法处理输入文件,则将该作业 SageMaker 标记为failed
。如果输入文件包含错误记录,则转换作业不会为该输入文件创建输出文件,因为这样做的话,将无法与输入文件中的转换后数据保持相同的顺序。当数据集具有多个输入文件时,即使转换作业无法处理其中一个输入文件,它也会继续处理这些文件。处理后的文件仍会生成可用的结果。
如果您使用的是自己的算法,则当算法在输入文件中找到错误记录时,您可以使用占位符文本,如 ERROR
。例如,如果数据集中的最后一条记录是错误的,算法会在输出文件中放入占位符文本来替代该记录。