项目数据集 - Amazon Personalize
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 AWS 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

项目数据集

一个项目数据集存储有关项目的元数据。这可能包括诸如价格、类型或可用性等信息。项目数据集是可选的。您必须至少创建一个交互式数据集

创建 Items 数据集时,您还必须创建架构的数据集。Aschema告诉 Amazon Personalize 您的数据结构,并允许 Amazon Personalize 解析数据。有关 Item 数据集架构的示例,请参阅项目架构示例。有关架构要求的信息,请参阅数据集和方案要求

本部分提供有关必需项目数据以及您可以上传以进行培训的项目数据种类的信息。有关将项目数据导入 Item 数据集的信息,请参阅准备和导入数据

创建 “项目” 数据集并导入项目数据后,您可以根据特定项目条件筛选建议,以包括或排除项目。有关更多信息,请参阅 筛选建议

必需项目数据

您为每个项目提供的数据必须与您的 Item 数据集方案匹配。至少,您必须为每个商品提供一个商品编号。根据您的架构,项目元数据可以包含空/空值。

在模型培训期间,Amazon Personalize 最多考虑 75 万件商品。如果您导入的商品超过 750,000 件,Amazon Personalize 会决定将哪些商品包括在培训中,重点是包括新商品(您最近添加的商品没有互动的商品)和具有最近互动数据的现有商品。

有关 Item 数据集的最小要求和最大数据限制的详细信息,请参阅服务配额

创建时间戳数据

Amazon Personalize 使用创建时间戳数据(Unix 时代时间格式,以秒为单位)来计算商品的使用期限并相应地调整建议。

如果缺少一个或多个商品的创建时间戳数据,Amazon Personalize 会从交互数据(如果有)推断此信息,并使用商品最早交互数据的时间戳作为商品的创建时间戳。如果某个项目没有交互数据,则其创建时间戳将设置为培训集中最近交互的时间戳,Amazon Personalize 其视为新商品。

分类元数据

Amazon Personalize 在识别底层模式时会使用类别数据,例如商品的类型或颜色,以显示最相关的商品。您可以使用分类元数据根据项目属性筛选建议。有关筛选建议的信息,请参阅。筛选建议

要使用类别数据,请添加string添加到您的架构中,并将字段的类别属性设置为true。然后在批量 CSV 文件和增量项目导入中包含分类数据。对于具有多个类别的项目,请使用垂直条 “|” 分隔每个值。有关具有类别字段的架构的示例,请参阅。项目架构示例

分类值最多可包含 1,000 个字符。任何具有超过 1,000 个字符的类别值的项目都会在数据集导入作业期间丢弃,并且不在训练中使用。

非结构化文本元数据

随着个性化用户或者个性化-排名配方,Amazon Personalize 可以从非结构化文本元数据(如商品描述、商品评论或电影概要)中提取有意义的信息。Amazon Personalize 使用非结构化文本来为您的用户识别相关项目,尤其是当商品是新品或交互数据较少时。在 “项目” 数据集中包含非结构化文本数据,以提高目录中新项目的点击率和对话率。

要使用非结构化数据,请添加具有string添加到您的项目架构,然后将字段的textual属性设置为true。然后在批量 CSV 文件和增量项目导入中包含文本数据。对于批量 CSV 文件,请将文本用双引号包装。有关具有非结构化文本数据字段的 Item 架构的示例,请参阅项目架构示例。有关将数据导入 Amazon Personalize 的信息,请参阅。准备和导入数据

非结构化文本值最多可包含 200,000 个字符,文本必须为英文。“Amazon Personalize” 会截断超过 20 万个字符的字符限制的值。我们建议使用少于 5,000 字的非结构化文本元数据。

项目架构示例

以下示例演示如何构建 Items 架构。ITEM_ID 字段为必填项。这些区域有:GENRE字段是分类元数据,DESCRIPTION字段是文本元数据。至少需要一个元数据字段。您最多可添加 50 个元数据字段。这些区域有:CREATION_TIMESTAMP字段是保留关键字。有关架构要求的信息,请参阅。数据集和方案要求

{ "type": "record", "name": "Items", "namespace": "com.amazonaws.personalize.schema", "fields": [ { "name": "ITEM_ID", "type": "string" }, { "name": "GENRES", "type": [ "null", "string" ], "categorical": true }, { "name": "CREATION_TIMESTAMP", "type": "long" }, { "name": "DESCRIPTION", "type": [ "null", "string" ], "textual": true }, ], "version": "1.0" }

对于此架构,CSV 文件中的前几行历史数据可能如下所示。

ITEM_ID,GENRES,CREATION_TIMESTAMP,DESCRIPTION 1,Adventure|Animation|Children|Comedy|Fantasy,1570003267,"This is an animated movie that features action, comedy, and fantasy. Audience is children. This movie was released in 2004." 2,Adventure|Children|Fantasy,1571730101,"This is an adventure movie with elements of fantasy. Audience is children. This movie was release in 2010." 3,Comedy|Romance,1560515629,"This is a romantic comedy. The movie was released in 1999. Audience is young women." 4,Comedy|Drama|Romance,1581670067,"This movie includes elements of both comedy and drama as well as romance. This movie was released in 2020." ... ...