使用 Amazon G SageMaker round Truth 使用人类训练数据标签

此功能在中国区域中不可用。

要训练机器学习模型，您需要一个大型、高质量的标注数据集。Ground Truth 有助于您为机器学习模型构建高质量的训练数据集。借助 Ground Truth，您可以将来自 Amazon Mechanical Turk、您选择的供应商公司或内部私有人力资源的工作人员与机器学习相结合，以便创建已标注的数据集。您可以使用从 Ground Truth 输出的已标注数据集来训练自己的模型。您也可以将输出用作 Amazon A SageMaker I 模型的训练数据集。

根据您的 ML 应用程序，您可以选择一种 Ground Truth 内置任务类型，以使工作人员为您的数据生成特定类型的标签。您也可以构建自定义标注工作流，以便为标注数据的工作人员提供您自己的 UI 和工具。要了解 Ground Truth 内置任务类型的更多信息，请参阅Built-in 任务类型。要了解如何创建自定义标注工作流，请参阅自定义标注工作流程。

为了自动执行标注训练数据集的过程，您可以选择使用自动数据标注功能，这是一个使用机器学习来确定人们需要标注哪些数据的 Ground Truth 流程。自动数据标注功能可以减少所需的标注时间和人工操作。有关更多信息，请参阅自动数据标注。要创建自定义标注工作流，请参阅自定义标注工作流程。

使用预构建或自定义工具为训练数据集分配标注任务。标注 UI 模板是一个网页，Ground Truth 使用该模板来向工作人员提供任务和说明。A SageMaker I 控制台提供了用于标记数据的内置模板。您可以从这些模板入手，也可以使用我们的 HTML 2.0 组件构建您自己的任务和说明。有关更多信息，请参阅自定义标注工作流程。

使用您选择的人力来标注数据集。您可以从以下选项中选择人力：

由世界各地超过 50 万独立承包商组成的 Amazon Mechanical Turk 人力。
您基于员工或承包商创建的用于处理组织内数据的私有人力。
您可以在中找到一家专门提供数据标签服务的供应商公司。 Amazon Web Services Marketplace

有关更多信息，请参阅人力。

您将数据集存储在 Amazon S3 存储桶中。存储桶包含三项内容：要标注的数据、Ground Truth 用于读取数据文件的输入清单文件，以及输出清单文件。输出文件包含标注作业的结果。有关更多信息，请参阅使用输入和输出数据。

您的贴标任务中的事件会显示在 Amazon 的/aws/sagemaker/LabelingJobs群组 CloudWatch 下。 CloudWatch 使用标注任务名称作为日志流的名称。

你是 Ground Truth 的 First-time 用户吗？

如果您是首次接触 Ground Truth 的用户，我们建议您执行以下操作：

阅读入门：使用 Ground Truth 创建边界框标注作业 – 本节将指导您完成设置第一个 Ground Truth 标注作业的过程。
探索其他主题 – 根据您的需求，执行以下操作：
- 探索内置任务类型 – 使用内置任务类型简化标注作业的创建过程。要了解 Ground Truth 内置任务类型的更多信息，请参阅Built-in 任务类型。
- 管理标注人力 – 创建新的工作团队和管理您的现有人力。有关更多信息，请参阅人力。
- 了解流式标注作业 – 创建流式标注作业，并使用持续运行的标注作业实时向工作人员发送新的数据集对象。只要标注作业处于活动状态，并且有新的对象被发送给该作业，工作人员就会不断接收要标注的新数据对象。要了解更多信息，请参阅Ground Truth 流式标注作业。
要详细了解自动执行 Ground Truth 操作的可用操作，请参阅 SageMaker AI 服务 API 参考。

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

使用 human-in-the-loop 标注数据

入门：创建标注作业