本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
文本分类(单标签)
要将文章和文本分类为预定义类别,请使用文本分类。例如,您可以使用文本分类来识别评论中传达的情绪或文本部分背后的情绪。您可以使用 Amazon SageMaker Ground Truth 文本分类可让员工按您定义的类别对文本进行排序
您可以使用 Amazon SageMaker 控制台的 “Ground Truth” 部分或CreateLabelingJob
operation.
如果手动创建输入清单文件,请使用"source"
以识别要标记的文本。有关更多信息,请参阅 输入数据。
创建文本分类标记作业(控制台)
你可以按照中的说明创建标记作业(控制台)以了解如何在 SageMaker 控制台中创建文本分类标记作业。在步骤 10 中,选择Text来自 的任务类别下拉菜单,然后选择文本分类(单标签)作为任务类型。
Ground Truth 为标记任务提供类似于以下内容的工作人员 UI。使用控制台创建标记作业时,需要指定说明,以帮助工作人员完成工作人员可以从中选择的作业和标签。

创建文本分类标记作业 (API)
要创建文本分类标记作业,请使用 SageMaker API 操作。CreateLabelingJob
. 该 API 为所有 Amazon 开发工具包定义了该操作。要查看此操作支持的特定于语言的 SDK 列表,请查看另请参阅部分CreateLabelingJob
.
请按照创建标记作业 (API)中的说明进行操作,并在配置请求时执行以下操作:
-
此任务类型的注释前 Lambda 以结尾。
PRE-TextMultiClass
. 要查找您的区域的注释前 Lambda ARN,请参阅PreHumanTaskLambdaArn. -
此任务类型的注释合并 Lambda 函数以结尾
ACS-TextMultiClass
. 要查找您所在区域的注释合并 Lambda ARN,请参阅AnnotationConsolidationLambdaArn.
以下是一个示例AmazonPython 软件开发工具包 (Boto3) 请求
response = client.create_labeling_job( LabelingJobName=
'example-text-classification-labeling-job
, LabelAttributeName='label'
, InputConfig={ 'DataSource': { 'S3DataSource': { 'ManifestS3Uri':'s3://bucket/path/manifest-with-input-data.json'
} }, 'DataAttributes': { 'ContentClassifiers': ['FreeOfPersonallyIdentifiableInformation'|'FreeOfAdultContent'
, ] } }, OutputConfig={ 'S3OutputPath':'s3://bucket/path/file-to-store-output-data'
, 'KmsKeyId':'string'
}, RoleArn='arn:aws:iam::*:role/*
, LabelCategoryConfigS3Uri='s3://bucket/path/label-categories.json'
, StoppingConditions={ 'MaxHumanLabeledObjectCount':123
, 'MaxPercentageOfInputDatasetLabeled':123
}, HumanTaskConfig={ 'WorkteamArn':'arn:aws:sagemaker:region:*:workteam/private-crowd/*'
, 'UiConfig': { 'UiTemplateS3Uri':'s3://bucket/path/worker-task-template.html'
}, 'PreHumanTaskLambdaArn': 'arn:aws:lambda:us-east-1:432418664414
:function:PRE-TextMultiClass, 'TaskKeywords': [Text classification'
, ], 'TaskTitle':Text classification task'
, 'TaskDescription':'Carefully read and classify this text using the categories provided.'
, 'NumberOfHumanWorkersPerDataObject':123
, 'TaskTimeLimitInSeconds':123
, 'TaskAvailabilityLifetimeInSeconds':123
, 'MaxConcurrentTaskCount':123
, 'AnnotationConsolidationConfig': { 'AnnotationConsolidationLambdaArn': 'arn:aws:lambda:us-east-1:432418664414
:function:ACS-TextMultiClass' }, Tags=[ { 'Key':'string'
, 'Value':'string'
}, ] )
为文本分类标记作业提供模板
如果要使用 API 创建标记作业,必须在 UiTemplateS3Uri
中提供工作人员任务模板。复制并修改以下模板。仅修改 short-instructions
、full-instructions
和 header
。
将此模板上传到 S3,并在 UiTemplateS3Uri
中为此文件提供 S3 URI。
文本分类输出数据
创建文本分类标签作业后,您的输出数据将位于S3OutputPath
使用 API 时的参数或在输出数据集位置字段的Job 概述控制台的部分。
要详细了解 Ground Truth 生成的输出清单文件以及用于存储输出数据的文件结构,请参阅输出数据.
要查看来自文本分类标记作业的输出清单文件示例,请参阅 分类作业输出。