物品数据集 - Amazon Personalize
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

物品数据集

您可以导入 Amazon Personalize 的物品数据包括数字和分类元数据,例如创建时间戳、价格、类型、描述和库存情况。您可以将有关物品的元数据导入到 Amazon Personalize 物品数据集

Amazon Personalize 在训练时不使用非分类字符串物品数据,例如物品标题或作者数据。但是,某些 Amazon Personalize 特征确实使用这些数据来改进建议。有关更多信息,请参阅非分类字符串数据

最大元数据列数为 100。Amazon Personalize 在培训期间考虑的最大商品数量取决于您的用例或食谱。只有培训期间考虑的项目才能出现在推荐中。

  • 对于用户个性化-v2 或个性化排名-v2,模型在训练期间考虑的最大项目数为 500 万。这些项目来自项目和项目交互数据集。

  • 对于除用户个性化-v2 和 personalized-ranking-v2 之外的所有域用例和自定义配方,模型在训练和生成推荐期间考虑的最大项目数为 750,000 个。

有关配方要求的更多信息,请参阅选择食谱

此主题提供有关以下物品数据类型的信息:

创建时间戳数据

Amazon Personalize 使用创建时间戳数据(采用 Unix 纪元时间格式,以秒为单位),计算物品的使用年限并相应地调整建议。

如果缺少一件或多件物品的创建时间戳数据,则 Amazon Personalize 会从交互数据(如果有)中推断出此信息,并使用物品最早交互数据的时间戳作为物品的创建时间戳。如果某个物品没有交互数据,则其创建时间戳将设置为训练集中最新交互的时间戳,且 Amazon Personalize 会将其视为新物品。

分类元数据

对于某些食谱和域,Amazon Personalize 在识别底层模式时使用分类元数据(例如物品的类型或颜色),向用户显示最相关的物品。您可以基于自己的使用案例来定义自己的值范围。分类元数据可以是任何语言。

对于所有食谱和域,您可以导入分类数据,并使用此类数据,根据物品的属性筛选建议。有关筛选建议的信息,请参阅筛选建议和用户细分

分类值最多可以有 1000 个字符。如果您的物品的分类值超过 1000 个字符,则您的数据集导入作业将失败。

对于域数据集组,VIDEO_ON_DEMAND 和 ECOMMERCE 域都使用分类元数据。对于自定义数据集组和自定义解决方案,使用分类元数据的食谱包括以下内容:

非结构化文本元数据

对于某些食谱和域,Amazon Personalize 可以从非结构化文本元数据(例如产品描述、产品评论或电影提要)中提取有意义的信息。Amazon Personalize 使用非结构化文本为您的用户识别相关物品,尤其是在物品是新物品或交互数据较少的情况下。在物品数据集中包含非结构化文本数据,可以提高目录中新物品的点击率和对话率。

要使用非结构化数据,请在物品架构中添加一个类型为 string 的字段,并将该字段的 textual 属性设置为 true。您最多可添加 1 个文本字段。然后,将文本数据包含在批量 CSV 文件和单个物品导入中。

对于批量 CSV 文件,请将文本用双引号括起来,并删除所有换行符。使用 \ 字符,对数据中的任何双引号或 \ 字符进行转义处理。有关包含非结构化文本数据字段的物品架构的示例,请参阅物品数据集架构示例(自定义)。Amazon Personalize 会按字符限制截断文本字段。确保文本中最相关的信息位于字段的开头。有关将数据导入 Amazon Personalize 的信息,请参阅步骤 2:准备和导入数据

除中文和日语外,所有语言的非结构化文本值最多可以包含 2 万个字符。对于中文和日语,最多可以包含 7 千个字符。Amazon Personalize 会将超过字符限制的值截断,使其符合字符限制。

文本可使用以下语言:

  • 中文(简体)

  • 中文(繁体)

  • English

  • 法语

  • 德语

  • 日语

  • 葡萄牙语

  • 西班牙语

您可以采用多种语言提交非结构化文本物品,但每个物品的文本只能使用一种语言。

对于域数据集组,VIDEO_ON_DEMAND 和 ECOMMERCE 域都使用文本元数据。对于自定义数据集组和自定义解决方案,使用文本元数据的食谱包括以下内容:

非分类字符串数据

除了物品 ID 外,Amazon Personalize 在训练时不使用非分类字符串数据,例如物品标题或作者数据。但是,Amazon Personalize 可以将其与以下特征结合使用:

  • Amazon Personalize 可以在建议中包含物品元数据,包括非分类字符串值。您可以使用元数据来丰富用户界面中的建议,例如将导演的姓名添加到电影建议轮播中。有关更多信息,请参阅 推荐中的商品元数据

  • 如果您使用Similar-Items,则可以生成带有主题的批量建议。生成带有主题的批量建议时,必须在批量推理作业中指定物品名称列。有关更多信息,请参阅 内容生成器中带有主题的批量建议

  • 您可以创建筛选条件,以根据非分类字符串数据在建议中包含或删除物品。有关筛选条件的更多信息,请参阅筛选建议和用户细分