项目数据 - Amazon Personalize
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 Amazon Web Services 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

项目数据

您可以导入到 Amazon Personalize 中的商品数据包括数字和分类元数据,例如创建时间戳、价格、类型、描述和可用性。您将商品的元数据导入到Amazon Personalize 中物品数据集. 某些域和配方需要项目数据集。有关配方要求的更多信息,请参阅。第 1 步:选择配方.

本主题提供有关以下项目数据类型的信息:

创建时间戳数据

Amazon Personalize 使用创建时间戳数据(采用 Unix 纪元时间格式,以秒为单位)来计算商品的寿命并相应地调整推荐。

如果缺少一个或多个商品的创建时间戳数据,则 Amazon Personalize 会根据交互数据(如果有)推断此信息,并将该商品最早的交互数据的时间戳用作商品的创建时间戳。如果项目没有交互数据,则其创建时间戳将设置为培训集中最新交互的时间戳,Amazon Personalize 会将其视为新项目。

分类元数据

对于某些配方和域,Amazon Personalize 会使用分类元数据(例如商品的种类或颜色)来识别与用户最相关的商品的底层模式。您可以基于自己的使用案例来定义自己的值范围。分类元数据可以是任何语言。

对于所有配方和域,您可以导入分类数据,并使用它根据项目的属性筛选推荐。有关筛选建议的信息,请参阅。筛选推荐和用户细分.

分类值最多可包含 1000 个字符。如果某项的类别值超过 1000 个字符,则数据集导入作业将失败。

对于域数据集组,VIDEO_ON_DEMAND 和电子商务域都使用分类元数据。对于自定义数据集组和自定义解决方案,使用分类元数据的配方包括以下内容:

非结构化文本元数据

对于某些配方和域,Amazon Personalize 可以从非结构化文本元数据中提取有意义的信息,例如商品描述、商品评论或电影概要。Amazon Personalize 使用非结构化文本为您的用户识别相关商品,尤其是当商品为新商品或互动数据较少时。在 Items 数据集中包含非结构化文本数据,以提高目录中新项目的点击率和对话率。

要使用非结构化数据,请添加类型为的字段string到你的物品架构并设置字段的textual归因于true. 然后将文本数据包含在批量 CSV 文件和单个项目导入中。对于批量 CSV 文件,请将文本用双引号括起来。使用\字符来转义数据中的任何双引号或\ 字符。有关包含非结构化文本数据字段的 Items 架构的示例,请参阅项目数据集架构示例(自定义). Amazon Personalize 将按字符数限制截断文本字段。确保文本中最相关的信息位于字段的开头。有关将数据导入Amazon Personalize 的信息,请参阅。准备和导入数据.

在使用非结构化文本值之前,Amazon Personalize 会从文本中删除以下内容:

  • HTML 和 XML 标签和实体

  • 换行、制表符和额外空格字符

在除中文和日语之外的所有语言中,非结构化文本值最多可包含 20,000 个字符。对于中文和日文,最多可以包含 7,000 个字符。Amazon Personalize 会将超出字符数限制的值截断为字符数限制。

文本可以是以下语言:

  • 简体中文

  • 繁体中文

  • 英语

  • 法语

  • 德语

  • 日语

  • 葡萄牙语

  • 西班牙语

您可以提交多种语言的非结构化文本项目,但每个项目的文本只能使用一种语言。

对于域数据集组,VIDEO_ON_DEMAND 和电子商务域都使用文本元数据。对于自定义数据集组和自定义解决方案,使用文本元数据的配方包括以下内容: