Amazon SageMaker 如何处理训练输出 - Amazon SageMaker
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 AWS 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

Amazon SageMaker 如何处理训练输出

由于您的算法在容器中运行,它会生成包含训练作业状态以及模型和输出构件的输出。您的算法应将此信息写入以下文件(位于容器的 /output 目录中)。Amazon SageMaker 按如下方式处理此目录中包含的信息:

  • /opt/ml/output/failure — 如果训练失败,当所有算法输出(例如日志记录)完成后,您的算法应将关于失败的描述写入到此文件。在 DescribeTrainingJob 响应中,SageMaker 会返回此文件中的前 1024 个字符作为 FailureReason

     

  • /opt/ml/model—您的算法应将所有最终模型构件写入此目录。SageMaker 将此数据作为单个对象以压缩的 tar 格式复制到您在 CreateTrainingJob 请求中指定的 S3 位置。如果单个训练作业中的多个容器写入此目录,应确保没有 file/directory 名称冲突。SageMaker 将结果聚合到 tar 文件中并上传到 s3。