本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
创建架构和数据集
创建数据集组后,就可以为要导入的每种数据类型创建 Amazon Personalize 架构和数据集了。架构 会将您的数据结构告知给 Amazon Personalize,并允许 Amazon Personalize 解析数据。当你在 Amazon Personalize 中创建架构时,你使用JSON的是你在中创建的文件为 Amazon Personalize 架构创建架构 JSON 文件。
数据集是 Amazon Personalize 中用于训练数据的容器。不同的数据集类型有不同的要求。您可以为要导入的每种数据类型创建一个数据集。有关不同类型数据集以及如何准备数据的信息,请参阅为 Amazon Personalize 准备训练数据。
您可以使用 Amazon Personalize 控制台创建架构和数据集, Amazon Command Line Interface (Amazon CLI) 或 Amazon SDKs。您无法在域数据集组中创建下一个最佳操作资源,包括操作和操作交互数据集。
重要
创建架构后,您无法更改架构。但如果要添加新列,则可以将数据集的架构替换为新架构。有关更多信息,请参阅 替换数据集的架构,以便添加新列。
创建数据集和架构(控制台)
如果这是您的数据集组中的第一个数据集,则您的第一个数据集类型将是物品交互数据集。要在控制台中创建 Item intersactions 数据集,请指定数据集名称,然后以 Avro 格式
有关 Amazon Personalize 数据集要求的信息,请参阅为 Amazon Personalize 准备训练数据。如果您刚完成创建 Amazon Personalize 数据集组并且已经在创建数据集,请跳至此过程中的步骤 4。
创建数据集和架构
-
如果您还没有,请为 Amazon Personalize 架构创建架构 JSON 文件按照中的说明创建概述数据的架构JSON文件。
-
在https://console.aws.amazon.com/personalize/家
中打开 Amazon Personalize 控制台并登录您的账户。 -
在数据集组页面上,选择您在创建 Amazon Personalize 数据集组中创建的数据集组。
-
在步骤 1. 创建数据集和导入数据中,选择创建数据集,然后选择要创建的数据集类型。
-
选择将数据直接导入 Amazon Personalize 数据集,然后选择下一步。
-
在数据集详细信息中,对于数据集名称,为您的数据集指定名称。
-
对于数据集架构,选择创建新架构或使用现有架构。
-
如果您使用的是现有架构,请选择要使用的现有架构。如果要创建新架构,请为架构命名并粘贴与您的数据JSON匹配的架构。您在为 Amazon Personalize 架构创建架构 JSON 文件中创建了此文件。
-
对于标签,可以选择添加任何标签。有关标记 Amazon Personalize 资源的更多信息,请参阅为 Amazon Personalize 资源添加标签。
-
选择下一步,然后按照将训练数据导入 Amazon Personalize 数据集中的说明导入数据。
创建数据集和架构 (Amazon CLI)
要使用创建数据集和架构 Amazon CLI,请使用create-schema
命令(使用CreateSchemaAPI操作),然后使用命令create-dataset
(使用CreateDatasetAPI操作)。
创建架构和数据集
-
如果您还没有,请为 Amazon Personalize 架构创建架构 JSON 文件按照中的说明创建概述数据的架构JSON文件。
-
通过运行以下命令在 Amazon Personalize 中创建架构。创建架构后,您无法更改架构。
schemaName
替换为架构的名称,然后file://SchemaName.json
替换为JSON文件的位置。此示例将该文件显示为属于当前文件夹。如果要为域数据集组中的数据集创建架构,则添加domain
参数并将其设置为ECOMMERCE
或VIDEO_ON_DEMAND
。有关 API 的更多信息,请参阅 CreateSchema。aws personalize create-schema \ --name
SchemaName
\ --schemafile://SchemaName.json
将显示架构 Amazon 资源名称 (ARN),如以下示例所示:
{ "schemaArn": "arn:aws:personalize:us-west-2:acct-id:schema/SchemaName" }
-
通过运行以下命令来创建一个空数据集。提供来自上一步的数据集组 Amazon 资源名称 (ARN) 创建数据集组 (Amazon CLI) 和架构ARN。数据集类型值可以是
Interactions
、Users
、Items
、Actions
或Action_Interactions
。有关 API 的更多信息,请参阅 CreateDataset。aws personalize create-dataset \ --name
Dataset Name
\ --dataset-group-arnDataset Group ARN
\ --dataset-typeDataset Type
\ --schema-arnSchema Arn
将显示ARN数据集,如以下示例所示。
{ "datasetArn": "arn:aws:personalize:us-west-2:acct-id:dataset/DatasetName/INTERACTIONS" }
-
记录数据集ARN以备后用。创建数据集后,就可以导入训练数据了。请参阅 将训练数据导入 Amazon Personalize 数据集。
创建数据集和架构 (Amazon SDKs)
要使用创建数据集和架构 Amazon SDKs,您需要先定义 Avro 格式的架构,然后使用CreateSchema操作将其添加到 A
创建架构和数据集
-
如果您还没有,请为 Amazon Personalize 架构创建架构 JSON 文件按照中的说明创建概述数据的架构JSON文件。
-
使用以下代码在 Amazon Personalize 中创建架构。为您的架构指定名称和架构文件的文件路径。JSON如果要为域数据集组中的数据集创建架构,则添加
domain
参数并将其设置为ECOMMERCE
或VIDEO_ON_DEMAND
。有关 API 的更多信息,请参阅 CreateSchema。Amazon Personalize 会返回新架构ARN的架构。记录该 ARN,因为需要在下一步中使用。
-
使用 CreateDataset 操作创建数据集。以下代码展示了如何创建数据集。指定数据集组的 Amazon 资源名称 (ARN)、上一步ARN中的架构,并指定数据集类型。数据集类型值可以是
Interactions
、Users
、Items
、Actions
或Action_Interactions
。有关不同类型数据集的信息,请参阅为 Amazon Personalize 准备训练数据。创建数据集后,就可以导入训练数据了。请参阅 将训练数据导入 Amazon Personalize 数据集。