本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
CreateDatasetImportJob
创建将训练数据从数据源(Amazon S3 存储桶)导入到 Amazon Personalize 数据集的作业。要允许 Amazon Personalize 导入训练数据,您必须指定一个有权从数据源读取数据的 IAM 服务角色,因为 Amazon Personalize 会生成您的数据副本并在内部进行处理。有关授予对 Amazon S3 存储桶的访问权限的信息,请参阅向 Amazon Personalize 授予访问 Amazon S3 资源的权限。
如果您已经创建了推荐器或通过市场活动部署了自定义解决方案版本,则新批量记录如何影响建议取决于您使用的域使用案例或食谱。有关更多信息,请参阅新数据如何影响实时建议。
重要
默认情况下,数据集导入作业会替换您批量导入的数据集中的任何现有数据。要在不替换现有数据的情况下添加新记录,请在 CreateDatasetImportJob 操作中为导入模式指定 INCREMENTAL。
状态
数据集导入作业可处于以下几种状态之一:
-
CREATE PENDING > CREATE IN_PROGRESS > ACTIVE - 或 - CREATE FAILED
要获取导入作业的状态,请调用 DescribeDatasetImportJob,提供数据集导入作业的 Amazon 资源名称 (ARN)。当状态显示为 ACTIVE 时,数据集导入完成。如果状态显示为 CREATE FAILED,则响应中包含一个描述作业失败原因的 failureReason
键。
注意
导入需要耗费时间。您必须等到状态显示为 ACTIVE,然后才能使用数据集训练模型。
请求语法
{
"datasetArn": "string
",
"dataSource": {
"dataLocation": "string
"
},
"importMode": "string
",
"jobName": "string
",
"publishAttributionMetricsToS3": boolean
,
"roleArn": "string
",
"tags": [
{
"tagKey": "string
",
"tagValue": "string
"
}
]
}
请求参数
请求接受采用 JSON 格式的以下数据。
- datasetArn
-
接收导入数据的数据集的 ARN。
类型:字符串
长度约束:最大长度为 256。
模式:
arn:([a-z\d-]+):personalize:.*:.*:.+
必需:是
- dataSource
-
包含要导入的训练数据的 Amazon S3 桶。
类型:DataSource 对象
必需:是
- importMode
-
指定如何将新记录添加到现有数据集。默认导入模式为
FULL
。如果您之前没有将批量记录导入数据集,则只能指定FULL
。-
要覆盖数据集中的所有现有批量数据,请指定
FULL
。您单独导入的数据不会被替换。 -
要将新记录附加到数据集中的现有数据中,请指定
INCREMENTAL
。Amazon Personalize 会将所有具有相同 ID 的记录替换为新记录。
类型:字符串
有效值:
FULL | INCREMENTAL
必需:否
-
- jobName
-
数据集导入作业的名称。
类型:字符串
长度限制:最小长度为 1。最大长度为 63。
模式:
^[a-zA-Z0-9][a-zA-Z0-9\-_]*
必需:是
- publishAttributionMetricsToS3
-
如果您创建了指标归因,请指定是否将此导入作业的指标发布到 Amazon S3
类型:布尔值
必需:否
- roleArn
-
有权读取 Amazon S3 数据来源的 IAM 角色的 ARN。
类型:字符串
长度约束:最大长度为 256。
模式:
arn:([a-z\d-]+):iam::\d{12}:role/?[a-zA-Z_0-9+=,.@\-_/]+
必需:是
-
要应用于数据集导入作业的标签列表。
类型:Tag 对象数组
数组成员:最少 0 个物品。最多 200 项。
必需:否
响应语法
{
"datasetImportJobArn": "string"
}
响应元素
如果此操作成功,则该服务将会发送回 HTTP 200 响应。
服务以 JSON 格式返回以下数据。
- datasetImportJobArn
-
数据集导入作业的 ARN。
类型:字符串
长度约束:最大长度为 256。
模式:
arn:([a-z\d-]+):personalize:.*:.*:.+
错误
- InvalidInputException
-
为字段或参数提供有效值。
HTTP 状态代码:400
- LimitExceededException
-
超出每秒请求次数的限制。
HTTP 状态代码:400
- ResourceAlreadyExistsException
-
指定资源已经存在。
HTTP 状态代码:400
- ResourceInUseException
-
指定的资源正在使用中。
HTTP 状态代码:400
- ResourceNotFoundException
-
找不到指定的资源。
HTTP 状态代码:400
- TooManyTagsException
-
您已超出您可以应用到此资源的最大标签数量。
HTTP 状态代码:400
另请参阅
有关在特定语言的 Amazon SDK 中使用此 API 的更多信息,请参阅以下内容: