本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
使用批量转换
当您需要执行以下操作时,请使用批量转换:
-
预处理数据集以从数据集中删除可能干扰训练或推理的噪声或偏差。
-
从大型数据集获取推理。
-
当您不需要持续性终端节点时运行推理。
-
将输入记录与推理相关联,以帮助解释结果。
要在执行推理前筛选输入数据,或要将输入记录与有关这些记录的推理相关联,请参阅将预测结果与输入记录关联。例如,您可以筛选输入数据,为创建和解释有关输出数据的报告提供上下文。
使用批量转换获取大型数据集的推理
批量处理在指定参数的限制内自动管理大型数据集的处理。例如,假设您有一个数据集文件 input1.csv
,此文件存储在一个 S3 存储桶中。输入文件的内容可能类似于以下示例。
Record1-Attribute1, Record1-Attribute2, Record1-Attribute3, ..., Record1-AttributeM Record2-Attribute1, Record2-Attribute2, Record2-Attribute3, ..., Record2-AttributeM Record3-Attribute1, Record3-Attribute2, Record3-Attribute3, ..., Record3-AttributeM ... RecordN-Attribute1, RecordN-Attribute2, RecordN-Attribute3, ..., RecordN-AttributeM
批量转换作业启动时, SageMaker 初始化计算实例并在它们之间分配推理或预处理工作负载。Batch 转换按密钥对输入中的 Amazon S3 对象进行分区,并将 Amazon S3 对象映射到实例。当您有多个文件时,一个实例可能处理 input1.csv
,而另一个实例可能处理名为 input2.csv
的文件。如果您有一个输入文件但初始化了多个计算实例,则只有一个实例处理输入文件,其余实例处于空闲状态。
您也可以将输入文件拆分成小批量。例如,您可以通过仅包含其中两个记录来从 input1.csv
创建一个小批量。
Record3-Attribute1, Record3-Attribute2, Record3-Attribute3, ..., Record3-AttributeM Record4-Attribute1, Record4-Attribute2, Record4-Attribute3, ..., Record4-AttributeM
注意
SageMaker 分别处理每个输入文件。它不会合并来自不同输入文件的小批量以符合MaxPayloadInMB
限制。
要在创建批处理转换任务时将输入文件拆分成小批处理,请将SplitType
参数值设置为Line
。如果设置SplitType
为None
或者输入文件无法拆分成小批处理,则在单个请求中 SageMaker 使用整个输入文件。请注意,Batch 转换不支持包含嵌入式换行符的 CSV 格式输入。您可以使用BatchStrategy
和MaxPayloadInMB
参数控制小批量的大小。 MaxPayloadInMB
不得大于 100 MB。如果您指定了可选MaxConcurrentTransforms
参数,则的值也(MaxConcurrentTransforms * MaxPayloadInMB)
不得超过 100 MB。
如果批量转换作业成功处理输入文件中的所有记录,它会创建一个文件扩展名为 .out
的同名输出文件。对于 input1.csv
和 input2.csv
等多个输入文件,输出文件将分别名为 input1.csv.out
和 input2.csv.out
。批处理转换任务将输出文件存储在 Amazon S3 的指定位置,例如s3://awsexamplebucket/output/
。
输出文件中的预测按与输入文件中对应的记录相同的顺序列出。输出文件 input1.csv.out
的内容(基于早前显示的输入文件)如下所示。
Inference1-Attribute1, Inference1-Attribute2, Inference1-Attribute3, ..., Inference1-AttributeM Inference2-Attribute1, Inference2-Attribute2, Inference2-Attribute3, ..., Inference2-AttributeM Inference3-Attribute1, Inference3-Attribute2, Inference3-Attribute3, ..., Inference3-AttributeM ... InferenceN-Attribute1, InferenceN-Attribute2, InferenceN-Attribute3, ..., InferenceN-AttributeM
如果设置SplitType
为Line
,则可以将AssembleWith
参数设置Line
为以将输出记录与行分隔符连接起来。这不会更改输出文件的数。输出文件的数量等于输入文件的数量,使用AssembleWith
不会合并文件。如果您未指定AssembleWith
参数,则默认情况下,输出记录以二进制格式串联。
当输入数据非常大且使用 HTTP 分块编码传输时,要将数据流式传输到算法,则设置为MaxPayloadInMB
0
。Amazon 的 SageMaker 内置算法不支持此功能。
有关使用 API 创建批量转换作业的信息,请参阅 CreateTransformJob
API。有关批量转换输入和输出对象之间相关性的更多信息,请参见OutputDataConfig
。有关如何使用批量转换的示例,请参阅(可选)使用Batch 转换进行预测。
加快批量转换作业
如果您使用的是 CreateTransformJob
API,则可以通过使用、或等MaxPayloadInMB
参数的最佳值来缩短完成批量转换作业所需的时间BatchStrategy
。MaxConcurrentTransforms
的理想值等MaxConcurrentTransforms
于批处理转换作业中的计算工作线程数。如果您使用的是 SageMaker 控制台,则可以在 “Batc h 转换作业配置” 页面的 “其他配置” 部分中指定这些最佳参数值。 SageMaker 自动为内置算法找到最佳参数设置。对于自定义算法,通过 execution-parameters 终端节点提供这些值。
使用批量转换测试生产变体
要测试不同的模型或各种超参数设置,请为每个新的模型变体创建单独的转换作业并使用验证数据集。对于每个转换任务,在 Amazon S3 中为输出文件指定唯一的模型名称和位置。要分析结果,请使用推理管道日志和指标。
批量转换示例笔记本
对于将批量转换与主成分分析 (PCA) 模型结合使用以减少用户项查看矩阵中的数据,然后将应用程序的基于密度的空间聚类以及噪声 (DBSCAN) 算法应用于聚类电影的示例笔记本 ,请参阅使用 PCA 和 DBSCAN电影聚类进行批量转换