CreateDatasetImportJob - Amazon Personalize
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

CreateDatasetImportJob

创建将训练数据从数据源(Amazon S3 存储桶)导入到 Amazon Personalize 数据集的作业。要允许 Amazon Personalize 导入训练数据,您必须指定一个有权从数据源读取数据的 IAM 服务角色,因为 Amazon Personalize 会生成您的数据副本并在内部进行处理。有关授予对 Amazon S3 存储桶的访问权限的信息,请参阅向 Amazon Personalize 授予访问 Amazon S3 资源的权限

如果您已经创建了推荐器或通过市场活动部署了自定义解决方案版本,则新批量记录如何影响建议取决于您使用的域使用案例或配方。有关更多信息,请参阅新数据如何影响实时建议

重要

默认情况下,数据集导入作业会替换您批量导入的数据集中的任何现有数据。要在不替换现有数据的情况下添加新记录,请在 CreateDatasetImportJob 操作中为导入模式指定 INCREMENTAL。

状态

数据集导入作业可处于以下几种状态之一:

  • CREATE PENDING > CREATE IN_PROGRESS > ACTIVE - 或 - CREATE FAILED

要获取导入作业的状态,请调用 DescribeDatasetImportJob,提供数据集导入作业的 Amazon 资源名称 (ARN)。当状态显示为 ACTIVE 时,数据集导入完成。如果状态显示为 CREATE FAILED,则响应中包含一个描述作业失败原因的 failureReason 键。

注意

导入需要耗费时间。您必须等到状态显示为 ACTIVE,然后才能使用数据集训练模型。

请求语法

{ "datasetArn": "string", "dataSource": { "dataLocation": "string" }, "importMode": "string", "jobName": "string", "publishAttributionMetricsToS3": boolean, "roleArn": "string", "tags": [ { "tagKey": "string", "tagValue": "string" } ] }

请求参数

请求接受采用 JSON 格式的以下数据。

datasetArn

接收导入数据的数据集的 ARN。

类型:字符串

长度限制:最大长度为 256。

模式:arn:([a-z\d-]+):personalize:.*:.*:.+

必需:是

dataSource

包含要导入的训练数据的 Amazon S3 桶。

类型:DataSource 对象

必需:是

importMode

指定如何将新记录添加到现有数据集。默认导入模式为 FULL。如果您之前没有将批量记录导入数据集,则只能指定 FULL

  • 要覆盖数据集中的所有现有批量数据,请指定 FULL。您单独导入的数据不会被替换。

  • 要将新记录附加到数据集中的现有数据中,请指定 INCREMENTAL。Amazon Personalize 会将所有具有相同 ID 的记录替换为新记录。

类型:字符串

有效值:FULL | INCREMENTAL

必需:否

jobName

数据集导入作业的名称。

类型:字符串

长度限制:长度下限为 1。最大长度为 63。

模式:^[a-zA-Z0-9][a-zA-Z0-9\-_]*

必需:是

publishAttributionMetricsToS3

如果您创建了指标归因,请指定是否将此导入作业的指标发布到 Amazon S3

类型:布尔值

必需:否

roleArn

有权读取 Amazon S3 数据来源的 IAM 角色的 ARN。

类型:字符串

长度限制:最大长度为 256。

模式:arn:([a-z\d-]+):iam::\d{12}:role/?[a-zA-Z_0-9+=,.@\-_/]+

必需:是

tags

要应用于数据集导入作业的标签列表。

类型:Tag 对象数组

数组成员:最少 0 项。最多 200 项。

必需:否

响应语法

{ "datasetImportJobArn": "string" }

响应元素

如果此操作成功,则该服务将会发送回 HTTP 200 响应。

服务以 JSON 格式返回以下数据。

datasetImportJobArn

数据集导入作业的 ARN。

类型:字符串

长度限制:最大长度为 256。

模式:arn:([a-z\d-]+):personalize:.*:.*:.+

错误

InvalidInputException

为字段或参数提供有效值。

HTTP 状态代码:400

LimitExceededException

超出每秒请求次数的限制。

HTTP 状态代码:400

ResourceAlreadyExistsException

指定资源已经存在。

HTTP 状态代码:400

ResourceInUseException

指定的资源正在使用中。

HTTP 状态代码:400

ResourceNotFoundException

找不到指定的资源。

HTTP 状态代码:400

TooManyTagsException

您已超出您可以应用到此资源的最大标签数量。

HTTP 状态代码:400

另请参阅

有关在特定语言的 Amazon SDK 中使用此 API 的更多信息,请参阅以下内容: