控制发送到 Worker 的数据对象的流 - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 Amazon Web Services 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

控制发送到 Worker 的数据对象的流

根据您创建的标签作业类型,Amazon SageMaker Ground Truth 分批或以流式传输方式向工作人员发送数据对象。您可以通过以下方式控制向工作人员的数据对象的流:

  • 对于这两种类型的标注作业,您可以使用MaxConcurrentTaskCount以控制标注作业运行时在给定时间点可供所有工作人员使用的数据对象总数。

  • 对于流式传输标签作业,您可以通过监视和控制发送到与标签任务相关联的 Amazon SQS 的数据对象数来控制数据对象流到工作线程。

有关这些选项的更多信息,请参阅以下部分。要了解有关流式传输标记作业的更多信息,请参阅Ground Truth 流标签作业.

使用最大并发电流计数控制数据对象的流

MaxConcurrentTaskCount定义人工作人员可以同时标记的最大数据对象。如果您使用控制台,则此参数设置为 1,000。如果您使用CreateLabelingJob,您可以将此参数设置为介于 1 到 1,000 之间的任何整数(包括在内)。

使用输入清单文件启动标注作业时,“Ground Truth” 会执行以下操作:

  1. 对于输入清单文件中列出的每个数据对象,将创建一个或多个任务,具体取决于您为NumberOfHumanWorkersPerDataObject. 例如,如果将每个数据对象的工作线程数设置为 3,则将为每个数据集对象创建 3 个任务。要标记为成功标记,至少必须有一个工作程序标记对象。或者,任务可以过期或被拒绝。

  2. 如果您使用的是 “Mechanical Turk 其人” 工作线,则 “Ground Truth 理” 首先向您的工作人员发送一批 10 个数据集对象。它使用这个小批次来设置标记作业,并确保该作业得到正确配置。

  3. 接下来,Ground Truth 发送MaxConcurrentTaskCount数据集对象的数量。例如,如果您的输入清单文件中有 2,000 个输入数据对象,并且已将每个数据对象的工作线程数设置为 3,并将MaxConcurrentTaskCount设置为 900,则输入清单中的前 900 个数据对象将发送给工作人员,对应于 2,700 个任务 (900 x 3)。这是发送给 Worker 的第一组全尺寸的对象。

  4. 接下来会发生的操作取决于您创建的标记作业的类型。此步骤假定输入清单文件中的一个或多个数据集对象,或者使用 Amazon SNS 输入数据源(在流式标注作业中)发送的数据集未包括在步骤 3 中发送给工作人员的集中。

    • 流式标记作业:只要工作人员可用的对象总数等于MaxConcurrentTaskCount,则输入清单文件中的所有剩余数据集对象以及您使用 Amazon SNS 实时发送的数据集对象都将放置在 Amazon SQS 队列中。当工作人员可用对象总数低于MaxConcurrentTaskCountNumberOfHumanWorkersPerDataObject,则使用队列中的新数据对象创建NumberOfHumanWorkersPerDataObject-任务, 这是实时发送给工人.

    • 非流式标记作业:当工作人员完成对一组对象的标记时,最多可以MaxConcurrentTaskCountTIMENumberOfHumanWorkersPerDataObject新任务数将发送给工作人员。此过程将重复执行,直到标记输入清单文件中的所有数据对象。

使用 Amazon SQS 控制数据对象流式传输标签作业的流

当您创建流式传输标签作业时,系统会在您的账户中自动创建 Amazon SQS 队列。仅当发送到 Worker 的对象总数高于时,数据对象才会添加到 Amazon SQS 队列MaxConcurrentTaskCount. 否则,对象将直接发送到 worker。

您可以使用此队列来管理标注作业的数据对象流。要了解更多信息,请参阅“使用 Amazon SQS 队列管理贴标请求 ”。