数据集和架构 - Amazon Personalize
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

数据集和架构

Amazon Personalize 数据集 是数据容器。有五种类型的数据集:

  • 物品交互 - 此数据集存储来自用户和物品之间交互的历史数据和实时数据。在 Amazon Personalize 中,交互 是您记录然后将其作为训练数据导入的事件。对于域数据集组和自定义数据集组,您必须至少创建一个物品交互数据集。

  • 用户 - 此数据集存储有关用户的元数据。这可能包括年龄、性别、会员资格或物品标题等信息。

  • 物品 - 此数据集存储有关物品的元数据。这可能包括如价格、SKU 类型或可用性等信息。

  • 操作 - 此数据集存储有关您的操作的元数据。操作是您可能需要向客户建议的交互活动。操作可能包括安装您的移动应用、填写会员资料、加入忠诚度计划或注册促销电子邮件。对于 Next-Best-Action 配方,需要操作数据集。没有其它自定义配方或域使用案例使用操作数据。

  • 操作交互 - 此数据集存储来自用户和操作之间交互的历史数据和实时数据。Next-Best-Action 配方使用这些数据和操作数据集中的数据向用户建议操作。没有其它自定义配方或域使用案例使用操作交互数据。

每个数据集组只能包含每种数据集类型中的一种。在您删除数据集之前,Amazon Personalize 会将您的数据存储在数据集中。对于所有使用案例(域数据集组)和配方(自定义数据集组),您的交互数据必须具有以下内容:

  • 至少 1000 条来自用户与您目录中的物品进行交互的物品交互记录。这些交互可以来自批量导入,也可以来自流事件,或者两者兼而有之。

  • 至少 25 个唯一的用户 ID,每位用户至少有两次物品交互。

为获得高质量的建议,我们建议您至少有 1000 名用户的最少 5 万次物品交互,每位用户有两次或更多次物品交互。

在创建数据集之前,您需定义该数据集的架构。架构 会将您的数据结构告知给 Amazon Personalize,并允许 Amazon Personalize 解析数据。架构具有名称键,其值必须与数据集类型相匹配。创建架构后,您无法更改架构。

对于域数据集组,每种数据集类型都有一个包含必填字段和保留关键字的默认架构。每次创建数据集时,都可以使用现有域架构,也可以通过修改现有默认架构来创建新的域架构。使用默认架构作为指南,确定要为域导入哪些数据。定义架构并创建数据集后,就无法对架构进行更改。

如果批量导入数据,数据必须以逗号分隔值 (CSV) 格式存储。CSV 文件的第一行必须包含列标题,列标题必须与架构匹配。有关如何设置 Amazon Personalize 批量数据格式的信息,请参阅数据格式指南