使用 Amazon SageMaker Ground Truth 标记数据 - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 Amazon Web Services 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

使用 Amazon SageMaker Ground Truth 标记数据

此功能在中国区域中不可用。

要训练机器学习模型,您需要一个大型、高质量、已标记的数据集。Label Ground Truth ality 可以帮助您为机器学习模型构建高品质的训练数据集。借助 Ground Truth,您可以使用 Amazon Mechanical Turk(您选择的供应商公司)或内部私有人力资源的工作人员与机器学习相结合,以便创建已标记的数据集。您可以使用 Ground Truth 值中的已标记数据集输出来训练您自己的模型。您也可以将输出用作 Amazon SageMaker 模型的训练数据集。

根据您的 ML 应用程序,您可以选择一种 Ground Truth 内置任务类型,以使工作人员为您的数据生成特定类型的标签。您也可以构建自定义标记工作流,以便为标记数据的工作人员提供您自己的 UI 和工具。要了解内置任务类型的 Ground Truth 的更多信息,请参阅内置任务类型。要了解如何创建自定义标签工作流,请参阅创建自定义标记工作流

为了自动标注训练数据集,您可以选择使用自动数据标记,这是一个 Ground Truth 过程,它使用机器学习来确定人们需要标记哪些数据。自动数据标记功能可以减少所需的标记时间和人工操作。有关更多信息,请参阅 自动数据标记。要创建自定义标记工作流,请参阅创建自定义标记工作流

使用预构建或自定义工具为训练数据集分配标记任务。A标记 UI 模板是一个网页,Ground Truth 使用它来向工作人员提供任务和说明。SageMaker 控制台提供内置的模板来标记数据。您可以从这些模板入手,也可以使用我们的 HTML 2.0 组件构建您自己的任务和说明。有关更多信息,请参阅 创建自定义标记工作流

使用您选择的人力来标记您的数据集。您可以从以下选项中选择人力:

  • Amazon Mechanical Turk 力拥有超过 50 万独立承包商。

  • 您基于您的员工或承包商创建的用于处理组织内数据的私有人力。

  • 您可以在 Amazon Web Services Marketplace 中找到的专门从事数据标记服务的供应商公司。

有关更多信息,请参阅 创建和管理人力

您将数据集存储在 Amazon S3 存储桶中。存储桶包含三件事情:要标记的数据、Laint Taess 用于读取数据文件的输入清单文件以及输出清单文件。输出文件包含标记作业的结果。有关更多信息,请参阅 使用输入和输出数据

您的标签作业中的事件将显示在 Amazon CloudWatch 的/aws/sagemaker/LabelingJobs组中)。CloudWatch 使用标记作业名称作为日志流的名称。

您是 Ground Truth 的新用户吗?

如果您是首次接触 Ground Truth 的用户,我们建议您执行以下操作:

  1. Read开始使用-此部分引导您完成设置第一个 Ground Truth 标记作业的过程。

  2. 浏览其他主题— 根据您的需求,执行以下操作:

    • 浏览内置任务类型— 使用内置任务类型简化创建标注作业的过程。请参阅内置任务类型,了解有关 Ground Truth 内置任务类型的更多信息。

    • 管理您的贴标员工— 创建新的工作团队并管理您的现有人力。有关更多信息,请参阅 创建和管理人力

    • 了解有关流式标注作业的信息— 创建流式标注作业并使用永久运行的标注作业实时向 Worker 发送新的数据集对象。只要标注作业处于活动状态并向其发送新对象,Worker 就会持续接收要标记的新数据对象。要了解更多信息,请参阅“Ground Truth 流标签作业”。

  3. 请参阅 Reference-本节介绍自动执行 “Ground Truth” 操作的操作。