本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
自定义数据集和架构
创建自定义数据集组时,您可以从头开始创建自己的架构。自定义数据集组数据集和架构的必填字段较少,灵活性也更大。以下主题解释了自定义数据集组的 “交互”、“项目” 和 “用户” 数据集的架构和数据要求。每个数据集部分都列出了数据集类型所需的数据,并提供了模式的 JSON 示例。
有关您可以导入到 Amazon Personalize 化中的数据类型的信息,请参阅您可以导入到 Amazon Personalize 化中的数据类型. 有关 Amazon Personalize 化架构的一般要求(例如格式要求和可用字段数据类型)的信息,请参阅数据集和架构. 这些要求适用于所有 Amazon Personalize 化计划。
自定义数据集和架构要求
为自定义数据集组创建数据集时,每个数据集类型都具有以下必填字段和具有所需数据类型的保留关键字。
元数据字段
元数据包括不需要的字符串或非字符串字段。元数据架构具有以下限制:
-
用户和 Item 架构至少需要一个元数据字段。
-
您最多可以为用户架构添加 5 个元数据字段,对于项目架构,最多可以添加 50 个元数据字段。
-
如果您添加您自己的类型为的元数据字段
string
,它必须包括categorical
属性或textual
属性(只有项目架构支持具有文本属性的字段)。否则,Amazon Personalize 化将不会在训练模型时使用该字段。
保留关键字
保留关键字是可选的非元数据字段。这些字段被视为保留,因为在使用它们时必须将这些字段定义为必需的数据类型,而且关键字不能用作数据中的值。以下是保留的关键字:
-
EVENT_TYPE:对于具有一种或多种事件类型的交互数据集,例如两种类型点击和下载,使用
EVENT_TYPE
字段中返回的子位置类型。必须将 EVENT_TYPE 字段定义为string
. -
EVENT_VALUE:对于包含事件价值数据(例如用户观看的视频百分比)的交互数据集,请使用
EVENT_VALUE
带类型的字段float
还可以选择null
. -
CREATION_时间戳:对于具有每个项目创建日期的时间戳的 Item 数据集,请使用
CREATION_TIMESTAMP
带有类型的字段long
. Amazon Personalize 使用CREATION_TIMESTAMP
数据来计算商品的年龄并相应地调整建议。请参阅创建时间戳数据。 -
展示:对于具有显式展示次数数据的交互数据集,请使用
IMPRESSION
带类型的字段String
. 展示次数是用户在与特定项目互动(例如点击或观看)特定项目时可见的项目列表。有关更多信息,请参阅展示数据. -
推荐_ID:对于使用之前的推荐作为隐式展示数据的交互数据集,可以选择使用
RECOMMENDATION_ID
带类型的字段String
然后可选键入null
.您无需添加
RECOMMENDATION_ID
“Amazon Personalize 化” 字段,在生成推荐时使用隐式展示次数。你可以通过recommendationId
在PutEvents没有它的操作。有关更多信息,请参阅展示数据.