使用 Amazon SageMaker Ground Truth 标注数据 - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

使用 Amazon SageMaker Ground Truth 标注数据

此功能在中国区域中不可用。

要训练机器学习模型,您需要一个大型、高质量的标注数据集。Ground Truth 有助于您为机器学习模型构建高质量的训练数据集。借助 Ground Truth,您可以将来自 Amazon Mechanical Turk、您选择的供应商公司或内部私有人力资源的工作人员与机器学习相结合,以便创建已标注的数据集。您可以使用从 Ground Truth 输出的已标注数据集来训练自己的模型。您也可以将输出用作 Amazon SageMaker 模型的训练数据集。

根据您的 ML 应用程序,您可以选择一种 Ground Truth 内置任务类型,以使工作人员为您的数据生成特定类型的标签。您也可以构建自定义标注工作流,以便为标注数据的工作人员提供您自己的 UI 和工具。要了解 Ground Truth 内置任务类型的更多信息,请参阅内置任务类型。要了解如何创建自定义标注工作流,请参阅创建自定义标注工作流

为了自动执行标注训练数据集的过程,您可以选择使用自动数据标注功能,这是一个使用机器学习来确定人们需要标注哪些数据的 Ground Truth 流程。自动数据标注功能可以减少所需的标注时间和人工操作。有关更多信息,请参阅 自动数据标注。要创建自定义标注工作流,请参阅创建自定义标注工作流

使用预构建或自定义工具为训练数据集分配标注任务。标注 UI 模板是一个网页,Ground Truth 使用该模板来向工作人员提供任务和说明。SageMaker 控制台提供内置的模板来标注数据。您可以从这些模板入手,也可以使用我们的 HTML 2.0 组件构建您自己的任务和说明。有关更多信息,请参阅 创建自定义标注工作流

使用您选择的人力来标注数据集。您可以从以下选项中选择人力:

  • 由世界各地超过 50 万独立承包商组成的 Amazon Mechanical Turk 人力。

  • 您基于员工或承包商创建的用于处理组织内数据的私有人力。

  • 您可以在 Amazon Web Services Marketplace 中找到的专门从事数据标注服务的供应商公司。

有关更多信息,请参阅 创建和管理人力

您将数据集存储在 Amazon S3 存储桶中。存储桶包含三项内容:要标注的数据、Ground Truth 用于读取数据文件的输入清单文件,以及输出清单文件。输出文件包含标注作业的结果。有关更多信息,请参阅 使用输入和输出数据

标注作业的事件会出现在 Amazon CloudWatch 的 /aws/sagemaker/LabelingJobs 组下。CloudWatch 使用标注作业名称作为日志流的名称。

您是 Ground Truth 的新用户吗?

如果您是首次接触 Ground Truth 的用户,我们建议您执行以下操作:

  1. 阅读开始使用 – 本节将指导您完成设置第一个 Ground Truth 标注作业的过程。

  2. 探索其他主题 – 根据您的需求,执行以下操作:

    • 探索内置任务类型 – 使用内置任务类型简化标注作业的创建过程。要了解 Ground Truth 内置任务类型的更多信息,请参阅内置任务类型

    • 管理标注人力 – 创建新的工作团队和管理您的现有人力。有关更多信息,请参阅 创建和管理人力

    • 了解流式标注作业 – 创建流式标注作业,并使用持续运行的标注作业实时向工作人员发送新的数据集对象。只要标注作业处于活动状态,并且有新的对象被发送给该作业,工作人员就会不断接收要标注的新数据对象。要了解更多信息,请参阅Ground Truth 流式标注作业

  3. 参阅 Reference – 本节介绍自动执行 Ground Truth 操作的操作。