创建标注作业 (API)

要使用 Amazon SageMaker API 创建贴标任务，您可以使用CreateLabelingJob操作。有关为内置任务类型创建标注作业的具体说明，请参阅该任务类型页面。要了解如何创建流式标注作业（这是持续运行的标注作业），请参阅创建流式标注作业。

要使用 CreateLabelingJob 操作，您需要以下内容：

Amazon S3 中的工作人员任务模板 (UiTemplateS3Uri) 或人工任务 UI ARN (HumanTaskUiArn)。
- 对于 3D 点云作业、视频对象检测和跟踪作业以及 NER 作业，请将 HumanTaskUiArn 中列出的 ARN 用于您的任务类型。
- 如果您使用的是 3D 点云任务以外的内置任务类型，则可以将工作人员说明添加到其中一个预构建的模板中，并将此模板（使用 .html 或 .liquid 扩展名）保存在 S3 存储桶中。在任务类型页面上查找预构建模板。
- 如果使用自定义标注工作流，您可以创建一个自定义模板，并将该模板保存在 S3 存储桶中。要了解如何构建自定义工作人员模板，请参阅创建自定义工作人员任务模板。有关可用于自定义模板的自定义 HTML 元素，请参阅Crowd HTML 元素参考。有关各种标签任务的演示模板存储库，请参阅 Amazon G SageMaker round Truth 示例任务用户界面。
一个输入清单文件，用于指定 Amazon S3 中的输入数据。在 ManifestS3Uri 中指定输入清单文件的位置。有关创建输入清单的信息，请参阅输入数据。如果您创建流式标注作业，则这是可选的。要了解如何创建流式标注作业，请参阅创建流式标注作业。
存储输出数据的 Amazon S3 存储桶。您可以在 S3OutputPath 中指定此存储桶并选择指定前缀。
标签类别配置文件。每个标签类别名称必须唯一。使用 LabelCategoryConfigS3Uri 参数指定此文件在 Amazon S3 中的位置。此文件的格式和标签类别取决于您使用的任务类型：
- 对于图像分类和文本分类（单标签和多标签），必须至少指定两个标签类别。对于所有其他任务类型，所需的标签类别的最小数量为 1。
- 对于命名实体识别任务，必须在此文件中提供工作人员说明。有关详细信息和示例，请参阅在标签类别配置文件中提供工作人员说明。
- 对于 3D 点云和视频帧任务类型，请使用带有标签类别和框架属性参考的标注类别配置文件中的格式。
- 对于所有其他内置任务类型和自定义任务，标签类别配置文件必须是以下格式的 JSON 文件。通过将 label_1、label_2、...、label_n 替换为标签类别，确定要使用的标签。
```
{
    "document-version": "2018-11-28",
    "labels": [
        {"label": "label_1"},
        {"label": "label_2"},
        ...
        {"label": "label_n"}
    ]
}
```

附带AmazonSageMakerGroundTruthExecution托管 IAM 策略并有权访问您的 S3 存储桶的 Amazon Identity and Access Management (IAM) 角色。在 RoleArn 中指定此角色。要了解有关此策略的更多信息，请参阅在 Ground Truth 中使用 IAM 托管策略。如果您需要更精细的权限，请参阅分配 IAM 权限以使用 Ground Truth。

如果您的输入或输出存储桶名称不包含 sagemaker，则可以将类似于以下内容的策略附加到传递给 CreateLabelingJob 操作的角色。

用于处理输入和输出数据的注释前和注释后（或注释合并） Amazon Lambda 函数 Amazon 资源名称 (ARN)。
- Lambda 函数是在每个 Amazon 区域中为内置任务类型预定义的。要查找您所在地区的预注释 Lambda ARN，请参阅。PreHumanTaskLambdaArn要查找您所在地区的注释合并 Lambda ARN，请参阅。AnnotationConsolidationLambdaArn
- 对于自定义标注工作流，必须提供自定义的注释前和注释后 Lambda ARN。要了解如何创建这些 Lambda 函数，请参阅在自定义标签工作流程中处理数据 Amazon Lambda。
您在 WorkteamArn 中指定的工作团队 ARN。当您订阅供应商人力或创建私有工作团队时，您会收到工作团队 ARN。如果您正在为视频帧或点云任务类型创建标注作业，则无法使用工作 Amazon Mechanical Turk 人员。对于所有其他任务类型，要使用 Mechanical Turk 人力，请使用以下 ARN。region替换为您用于创建标注任务的 Amazon 区域。

arn:aws:sagemaker:region:394669845002:workteam/public-crowd/default

如果您使用 Amazon Mechanical Turk 人力，请在 InputConfig 的 DataAttributes 中使用 ContentClassifiers 参数以声明您的内容不包含个人身份信息或成人内容。

如果您使用 Mechanical Turk 人力，Ground Truth 要求您的输入数据不包含个人身份信息 (PII)。如果您使用 Mechanical Turk，但没有使用 FreeOfPersonallyIdentifiableInformation 标志指定输入数据不含 PII，那么您的标注作业将失败。使用该FreeOfAdultContent标志声明您的输入数据不包含成人内容。 SageMaker 如果你的任务包含成人内容，人工智能可能会限制可以查看你的任务的 Amazon Mechanical Turk 工作人员。

要了解有关工作团队和人力的更多信息，请参阅人力。
如果您使用的是 Mechanical Turk 人力，则必须在 PublicWorkforceTaskPrice 中指定工作人员执行单项任务的价格。
要配置任务，必须分别使用 TaskDescription 和 TaskTitle 提供任务描述和标题。您可以选择提供时间限制，以控制工作人员执行单个任务的时间 (TaskTimeLimitInSeconds) 以及工作人员门户中为工作人员保留任务的时间 (TaskAvailabilityLifetimeInSeconds)。
（可选）对于某些任务类型，您可以让多个工作人员标注单个数据对象（为 NumberOfHumanWorkersPerDataObject 参数输入大于 1 的数字）。有关注释合并的更多信息，请参阅注释整合。
（可选）要创建自动数据标签任务，请指定LabelingJobAlgorithmSpecificationArn中LabelingJobAlgorithmsConfig列出的 ARN 之一。此 ARN 标识自动数据标注作业中使用的算法。与此 ARN 关联的任务类型必须与您指定的 PreHumanTaskLambdaArn 和 AnnotationConsolidationLambdaArn 的任务类型匹配。以下任务类型支持自动数据标注：图像分类、边界框、语义分割和文本分类。自动数据标注允许的最小对象数量为 1250 个，我们强烈建议至少提供 5000 个对象。要了解有关自动数据标注作业的更多信息，请参阅自动数据标注。
（可选）您可以提供 StoppingConditions，如果满足其中一个条件，标注作业就会停止。您可以使用停止条件来控制标注作业的成本。

示例

以下代码示例演示了如何使用 CreateLabelingJob 创建标注作业。您还可以在 SageMaker AI 示例存储库 GitHub中查看这些示例笔记本。

适用于 Python (Boto3) 的 Amazon SDK

以下是一个 Amazon Python SDK (Boto3) 请求示例，该请求使用私有人力在美国东部（弗吉尼亚州北部）区域中为内置任务类型创建标注作业。将所有内容red-italized text替换为您的标签作业资源和规格。


response = client.create_labeling_job(
    LabelingJobName="example-labeling-job",
    LabelAttributeName="label",
    InputConfig={
        'DataSource': {
            'S3DataSource': {
                'ManifestS3Uri': "s3://bucket/path/manifest-with-input-data.json"
            }
        },
        'DataAttributes': {
            'ContentClassifiers': [
                "FreeOfPersonallyIdentifiableInformation"|"FreeOfAdultContent",
            ]
        }
    },
    OutputConfig={
        'S3OutputPath': "s3://bucket/path/file-to-store-output-data",
        'KmsKeyId': "string"
    },
    RoleArn="arn:aws:iam::*:role/*",
    LabelCategoryConfigS3Uri="s3://bucket/path/label-categories.json",
    StoppingConditions={
        'MaxHumanLabeledObjectCount': 123,
        'MaxPercentageOfInputDatasetLabeled': 123
    },
    HumanTaskConfig={
        'WorkteamArn': "arn:aws:sagemaker:region:*:workteam/private-crowd/*",
        'UiConfig': {
            'UiTemplateS3Uri': "s3://bucket/path/custom-worker-task-template.html"
        },
        'PreHumanTaskLambdaArn': "arn:aws:lambda:us-east-1:432418664414:function:PRE-tasktype",
        'TaskKeywords': [
            "Images",
            "Classification",
            "Multi-label"
        ],
        'TaskTitle': "Multi-label image classification task",
        'TaskDescription': "Select all labels that apply to the images shown",
        'NumberOfHumanWorkersPerDataObject': 1,
        'TaskTimeLimitInSeconds': 3600,
        'TaskAvailabilityLifetimeInSeconds': 21600,
        'MaxConcurrentTaskCount': 1000,
        'AnnotationConsolidationConfig': {
            'AnnotationConsolidationLambdaArn': "arn:aws:lambda:us-east-1:432418664414:function:ACS-"
        },
    Tags=[
        {
            'Key': "string",
            'Value': "string"
        },
    ]
)

Amazon CLI

以下是使用 Amazon Mechanical Turk 员工为美国东部（弗吉尼亚北部）地区的内置任务类型创建标签任务的 Amazon CLI 请求示例。有关更多信息，请参阅《Amazon CLI 命令参考》中的 start-human-loop。将所有内容red-italized text替换为您的标签作业资源和规格。


$ aws --region us-east-1 sagemaker create-labeling-job \
--labeling-job-name "example-labeling-job" \
--label-attribute-name "label" \
--role-arn "arn:aws:iam::account-id:role/role-name" \
--input-config '{
        "DataAttributes": {
            "ContentClassifiers": [
                "FreeOfPersonallyIdentifiableInformation",
                "FreeOfAdultContent"
            ]
        },
        "DataSource": {
            "S3DataSource": {
                "ManifestS3Uri": "s3://bucket/path/manifest-with-input-data.json"
            }
        }
    }' \
--output-config '{
        "KmsKeyId": "",
        "S3OutputPath": "s3://bucket/path/file-to-store-output-data"
    }' \
--human-task-config '{
        "AnnotationConsolidationConfig": {
            "AnnotationConsolidationLambdaArn": "arn:aws:lambda:us-east-1:432418664414:function:ACS-"
        },
        "TaskAvailabilityLifetimeInSeconds": 21600,
        "TaskTimeLimitInSeconds": 3600,
        "NumberOfHumanWorkersPerDataObject": 1,
        "PreHumanTaskLambdaArn":  "arn:aws:lambda:us-east-1:432418664414:function:PRE-tasktype",
        "WorkteamArn": "arn:aws:sagemaker:us-east-1:394669845002:workteam/public-crowd/default",
        "PublicWorkforceTaskPrice": {
            "AmountInUsd": {
                "Dollars": 0,
                "TenthFractionsOfACent": 6,
                "Cents": 3
            }
        },
        "TaskDescription": "Select all labels that apply to the images shown",
        "MaxConcurrentTaskCount": 1000,
        "TaskTitle": "Multi-label image classification task",,
        "TaskKeywords": [
            "Images",
            "Classification",
            "Multi-label"
        ],
        "UiConfig": {
            "UiTemplateS3Uri": "s3://bucket/path/custom-worker-task-template.html"
        }
    }'

有关此操作的更多信息，请参阅CreateLabelingJob。有关如何使用其他特定于语言的 SDK 的信息，请参阅 CreateLabelingJobs 主题中的另请参阅。

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

创建标注作业（控制台）

创建流式标注作业