Amazon SageMaker 如何处理训练输出
由于您的算法在容器中运行,它会生成包含训练作业状态以及模型和输出构件的输出。您的算法应将此信息写入到以下文件中,这些文件位于容器的 /output
目录。Amazon SageMaker 按如下方式处理此目录中包含的信息:
-
/opt/ml/model
– 您的算法应将所有最终模型构件写入到此目录。SageMaker 将此数据作为单个对象,使用 tar 压缩格式复制到您在CreateTrainingJob
请求中指定的 S3 位置。如果在一个训练作业中有多个容器写入到此目录,则应确保没有file/directory
名称冲突。SageMaker 将结果聚合到一个 tar 文件中,并在训练作业结束时并上传到 S3。 -
/opt/ml/output/data
– 您的算法应将在最终模型之外要存储的构件写入到此目录。SageMaker 将此数据作为单个对象,使用 tar 压缩格式复制到您在CreateTrainingJob
请求中指定的 S3 位置。如果在一个训练作业中有多个容器写入到此目录,则应确保没有file/directory
名称冲突。SageMaker 将结果聚合到一个 tar 文件中,并在训练作业结束时并上传到 S3。 -
/opt/ml/output/failure
– 如果训练失败,当所有算法输出(例如日志记录)完成后,您的算法应将关于失败的描述写入到此文件。在DescribeTrainingJob
响应中,SageMaker 会返回此文件中的前 1024 个字符作为FailureReason
。