使用批量转换获取整个数据集的推理 - Amazon SageMaker
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 AWS 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

使用批量转换获取整个数据集的推理

要获取整个数据集的推理,请使用 批量转换。借助批量转换,您将创建一个使用经过训练模型和数据集的批量转换作业,该作业必须存储在 Amazon S3 中。Amazon SageMaker 将推理保存在您创建该批量转换作业时指定的 S3 存储桶中。批量转换管理获取推理所需的全部计算资源。这包括启动实例以及在批量转换作业完成后删除它们。批量转换通过实例节点中的一个对象管理数据和模型之间的交互,该对象称为代理。

在以下情况下使用批量转换:

  • 要获取整个数据集的推理并为其编制索引以实时处理推理

  • 不需要应用程序(例如,Web 或移动应用程序)可以调用来获取推理的持久终端节点。

  • 不需要 SageMaker 托管终端节点提供的亚秒级延迟。

此外,您还可以使用批量转换先预处理数据,然后再使用它来训练新的模型或生成推理。

下图显示了批量转换作业的工作流程:

要执行批量转换,请使用 SageMaker 控制台或 API 创建一个批量转换作业。提供以下项:

  • 存储要转换数据的 S3 存储桶的路径。

  • 您希望 SageMaker 用于转换作业的计算资源。计算资源 是 SageMaker 托管的机器学习 (ML) 计算实例。

  • 用于存储作业输出的 S3 存储桶的路径。

  • 要用于创建推理的 SageMaker 模型的名称。您必须使用已通过 CreateModel 操作或控制台创建好的模型。

以下是数据集文件具体形式的示例。

An example of input file content: Record1-Attribute1, Record1-Attribute2, Record1-Attribute3, ..., Record1-AttributeM Record2-Attribute1, Record2-Attribute2, Record2-Attribute3, ..., Record2-AttributeM Record3-Attribute1, Record3-Attribute2, Record3-Attribute3, ..., Record3-AttributeM ... RecordN-Attribute1, RecordN-Attribute2, RecordN-Attribute3, ..., RecordN-AttributeM

记录是单个输入数据单元。有关如何为批量转换作业分隔记录的信息,请参阅 SplitType

有关如何使用批量转换的示例,请参阅(可选)使用批量转换进行预测