本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
使用 Amazon SageMaker 标记数据的 Ground Truth
此功能在中国区域中不可用。 |
要训练机器学习模型,您需要一个大型、高质量、已标记的数据集。Ground Truth 可帮助您为机器学习模型构建高质量训练数据集。借助 Ground Truth,您可以将来自 Amazon Mechanical Turk(您选择的供应商公司)或内部私有人力资源的工作人员与机器学习相结合,以便创建已标记的数据集。您可以使用来自 Ground Truth 的已标记数据集来训练您自己的模型。您也可以将输出用作 Amazon 的训练数据集。 SageMaker 模型。
根据您的 ML 应用程序,您可以选择一种 Ground Truth 内置任务类型,以使工作人员为您的数据生成特定类型的标签。您也可以构建自定义标记工作流,以便为标记数据的工作人员提供您自己的 UI 和工具。要了解内置任务类型 Ground Truth 更多信息,请参阅内置任务类型. 要了解如何创建自定义标签工作流,请参阅创建自定义标记工作流。
为了自动标注训练数据集,您可以选择使用自动数据标记,这 Ground Truth 个使用机器学习来确定人们需要标记哪些数据的流程。自动数据标记功能可以减少所需的标记时间和人工操作。有关更多信息,请参阅 自动数据标记。要创建自定义标记工作流,请参阅创建自定义标记工作流.
使用预构建或自定义工具为训练数据集分配标记任务。一个为 UI 模板贴标是一个网页,Ground Truth 使用它来向工作人员提供任务和说明。这些区域有: SageMaker 控制台提供内置的模板来标记数据。您可以从这些模板入手,也可以使用我们的 HTML 2.0 组件构建您自己的任务和说明。有关更多信息,请参阅 创建自定义标记工作流。
使用您选择的人力来标记您的数据集。您可以从以下选项中选择人力:
-
由世界各地超过 50 万独立承包商组成的 Amazon Mechanical Turk 人力。
-
您基于您的员工或承包商创建的用于处理组织内数据的私有人力。
-
您可以在 Amazon Web Services Marketplace 中找到的专门从事数据标记服务的供应商公司。
有关更多信息,请参阅 创建和管理人力。
您将数据集存储在 Amazon S3 存储桶中。存储桶包含三件事:要标记的数据、Ground Truth 用于读取数据文件的输入清单文件,以及输出清单文件。输出文件包含标记作业的结果。有关更多信息,请参阅 使用输入和输出数据。
来自标签工作的事件显示在亚马逊 CloudWatch 在下/aws/sagemaker/LabelingJobs
组中)。 CloudWatch 使用标记作业名称作为日志流的名称。
您是 Ground Truth 的新用户吗?
如果您是 Ground Truth 的新用户,我们建议您执行以下操作:
-
Read开始使用— 此部分引导您完成首个 Ground Truth 标记作业的过程。
-
探索其他主题— 根据您的需求,执行以下操作:
-
探索内置任务类型— 使用内置任务类型简化标签作业的创建过程。请参阅内置任务类型要了解 Ground Truth 内置任务类型的更多信息。
-
管理标签工作人员— 创建新的工作团队和管理您的现有人力。有关更多信息,请参阅 创建和管理人力。
-
了解流标记作业的信息— 创建流式标注作业并使用永久运行的标注作业将新的数据集对象实时发送给工作人员。只要标签作业处于活动状态且正在向其发送新对象,工作人员就会持续接收要标记的新数据对象。要了解更多信息,请参阅 Ground Truth 直播标签职位。
-
-
请参阅
Reference
— 本节介绍自动执行 Ground Truth 操作的操作。