Amazon 如何 SageMaker 处理训练输出 - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

Amazon 如何 SageMaker 处理训练输出

由于您的算法在容器中运行,它会生成包含训练作业状态以及模型和输出构件的输出。您的算法应将此信息写入到以下文件中,这些文件位于容器的 /output 目录。Amazon 按如下方式 SageMaker 处理此目录中包含的信息:

  • /opt/ml/model— 您的算法应将所有最终模型工件写入此目录。 SageMaker 将此数据作为压缩的 tar 格式的单个对象复制到您在CreateTrainingJob请求中指定的 S3 位置。如果单个训练作业中有多个容器写入此目录,则应确保file/directory名称没有冲突。 SageMaker将结果聚合到 TAR 文件中,并在训练作业结束时上传到 S3。

  • /opt/ml/output/data— 您的算法应将要存储的最终模型以外的工件写入此目录。 SageMaker将此数据作为压缩的 tar 格式的单个对象复制到您在CreateTrainingJob请求中指定的 S3 位置。如果单个训练作业中有多个容器写入此目录,则应确保file/directory名称没有冲突。 SageMaker 将结果聚合到 TAR 文件中,并在训练作业结束时上传到 S3。

  • /opt/ml/output/failure – 如果训练失败,当所有算法输出(例如日志记录)完成后,您的算法应将关于失败的描述写入到此文件。在DescribeTrainingJob响应中,将此文件中的前 1024 个字符 SageMaker 返回为FailureReason

您可以指定 S3 通用存储桶或 S3 目录存储桶来存储您的训练输出。目录存储桶仅使用 Amazon S3 Express One Zone 存储类别,该类专为需要一致的个位数毫秒延迟的工作负载或性能关键型应用程序而设计。选择最适合您的应用程序和性能要求的桶类型。有关 S3 目录存储桶的更多信息,请参阅 A mazon 简单存储服务用户指南中的目录存储