处理数据并将其导入 Amazon Personalize - Amazon Personalize
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

处理数据并将其导入 Amazon Personalize

当您完成数据分析和转换后,就可以对其进行处理并将其导入 Amazon Personalize 了。

  • 处理数据 - 处理数据会将转换应用于整个数据集并将其输出到您指定的目的地。在这种情况下,您可以指定 Amazon S3 存储桶。

  • 将数据导入 Amazon Personalize - 要将处理过的数据导入到 Amazon Personalize 中,请运行在 SageMaker Studio Classic 中提供的 Jupyter 笔记本。此笔记本可创建您的 Amazon Personalize 数据集并将您的数据导入其中。

处理数据

在将数据导入 Amazon Personalize 之前,您必须将转换应用于整个数据集并将其输出到 Amazon S3 存储桶。为此,您需要创建一个目标节点,并将目标设置为 Amazon S3 存储桶,然后启动转换的处理作业。

有关指定目标和启动流程作业的分步说明,请参阅使用 Amazon SageMaker Data Wrangler 单击几下即可启动处理作业。添加目标时,选择 Amazon S3。将处理过的数据导入 Amazon Personalize 时,您将使用此位置。

处理完数据后,您就可以将其从 Amazon S3 存储桶导入到 Amazon Personalize 了。

将数据导入 Amazon Personalize

处理完数据后,即可将其导入 Amazon Personalize。要将处理过的数据导入到 Amazon Personalize 中,请运行在 SageMaker Studio Classic 中提供的 Jupyter 笔记本。此笔记本可创建您的 Amazon Personalize 数据集并将您的数据导入其中。

将处理过的数据导入 Amazon Personalize
  1. 对于要导出的转换,选择导出到,然后选择 Amazon Personalize(通过 Jupyter 笔记本)

  2. 修改笔记本,以指定您用作处理作业数据目标的 Amazon S3 存储桶。(可选)为您的数据集组指定域。默认情况下,笔记本会创建自定义数据集组。

  3. 查看创建架构的笔记本单元格。在运行单元格之前,验证架构字段是否具有预期的类型和属性。

    • 验证支持空数据的字段是否在类型列表中列出了 null。以下示例说明了如何为字段添加 null

      { "name": "GENDER", "type": [ "null", "string" ], "categorical": true }
    • 验证分类字段的类别属性是否设置为 true。以下示例说明了如何标记字段类别。

      { "name": "SUBSCRIPTION_MODEL", "type": "string", "categorical": true }
    • 验证文本字段的文本属性是否设置为 true。以下示例说明了如何将字段标记为文本。

      { "name": "DESCRIPTION", "type": [ "null", "string" ], "textual": true }
  4. 运行笔记本以创建架构,创建数据集,然后将您的数据导入 Amazon Personalize 数据集。可以像在 SageMaker Studio Classic 之外运行笔记本一样运行笔记本。有关运行 Jupyter 笔记本的信息,请参阅运行代码。有关 SageMaker Studio Classic 笔记本的信息,请参阅《Amazon SageMaker 开发人员指南》中的使用 Amazon SageMaker 笔记本

    完成笔记本后,如果您导入了交互数据,则可以创建推荐器或自定义资源。或者,您可以对物品数据集或用户数据集重复该过程。有关创建推荐器或自定义资源的信息,请参阅步骤 3:创建推荐器或自定义资源