自定义数据集和架构 - Amazon Personalize
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 Amazon Web Services 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

自定义数据集和架构

创建自定义数据集组时,您可以从头开始创建自己的架构。自定义数据集组数据集和架构的必填字段更少,灵活性更高。以下主题说明了自定义数据集组的交互、项目和用户数据集的架构和数据要求。每个数据集部分都列出了数据集类型所需的数据,并提供了架构的 JSON 示例。

有关您可以导入到 Amazon Personalize 的数据类型的信息,请参阅您可以导入 Amazon 的数据类型个性化. 有关一般 Amazon Personalize 架构要求(如格式要求和可用字段数据类型)的信息,请参阅数据集和架构. 这些要求适用于所有Amazon Personalize 方案。

自定义数据集和架构要求

为自定义数据集组创建数据集时,每种数据集类型都有以下必填字段和保留关键字以及必需的数据类型。

数据集类型 必填字段 保留关键字
交互 (架构示例

USER_ID (string)

ITEM_ID (string)

TIMESTAMP (long)

EVENT_TYPE (string)

EVENT_VALUE (floatnull

展示 (stringnull

推荐_ID (stringnull

用户 (架构示例

USER_ID (string)

1 个元数据字段(类别string或数字)

项目

ITEM_ID (架构示例

1 个元数据字段(分类或文本)string字段或数值字段)

CREATION_TIMESTAMP (long

元数据字段

元数据包括字符串字段或非字符串字段,这些字段不是必填字段或不使用保留关键字的字段。元数据架构具有以下限制:

  • 用户和项目架构至少需要一个元数据字段。

  • 用户架构最多可以添加 5 个元数据字段,为 Items 架构添加 50 个元数据字段。

  • 如果您添加您自己的类型为的元数据字段string,它必须包含categorical属性或textual属性(只有 Items 架构支持带文本属性的字段)。否则,在训练模型时,Amazon Personalize 将不会使用该字段。

保留关键字

保留关键字是可选的非元数据字段。这些字段被视为保留字段,因为在使用这些字段时必须将这些字段定义为必需的数据类型,而且这些关键字不能用作数据中的值。保留的分类字符串字段必须具有categorical设置为true,而保留的字符串字段不能是分类字段。以下是保留关键字:

  • EVENT_TYPE: 对于具有一个或多个事件类型(如两者)的 Interactions 数据集点击下载,使用一个EVENT_TYPE字段中返回的子位置类型。必须将 EVENT_TYPE 字段定义为string并且不能设置为绝对的。

  • EVENT_VALUE: 对于包含事件价值数据(例如用户观看的视频的百分比)的 Interactions 数据集,请使用EVENT_VALUEtypefloat并且可选null.

  • CREATION_TIMESTAMP: 对于具有每个项目创建日期的时间戳的项目数据集,请使用CREATION_TIMESTAMP类型为的字段long. Amazon PersonalizeCREATION_TIMESTAMP数据来计算商品的使用寿命并相应地调整推荐。请参阅 创建时间戳数据

  • 展示: 对于包含显式展示数据的 Interactions 数据集,请使用IMPRESSIONtypeString并可选择typenull. 展示次数是用户与特定项目互动(例如,点击或观看)时可见的项目列表。有关更多信息,请参阅展示数据.

  • 推荐_ID: 对于使用之前推荐作为隐式展示数据的 Interactions 数据集,可以选择使用RECOMMENDATION_IDtypeString并可选择typenull.

    您无需添加RECOMMENDATION_ID字段,以便Amazon Personalize 在生成推荐时使用隐式展示。你可以通过一个recommendationId在一个PutEvents没有它的操作。有关更多信息,请参阅展示数据.