本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
项目数据
您可以导入到 Amazon Personalize 中的商品数据包括数字和分类元数据,例如创建时间戳、价格、类型、描述和可用性。您将商品的元数据导入到Amazon Personalize 中物品数据集. 某些域和配方需要项目数据集。有关配方要求的更多信息,请参阅。步骤 1:选择食谱.
本主题提供有关以下项目数据类型的信息:
创建时间戳数据
Amazon Personalize 使用创建时间戳数据(采用 Unix 纪元时间格式,以秒为单位)来计算商品的寿命并相应地调整推荐。
如果缺少一个或多个商品的创建时间戳数据,则 Amazon Personalize 会根据交互数据(如果有)推断此信息,并将该商品最早的交互数据的时间戳用作商品的创建时间戳。如果项目没有交互数据,则其创建时间戳将设置为培训集中最新交互的时间戳,Amazon Personalize 会将其视为新项目。
分类元数据
对于某些配方和域,Amazon Personalize 会使用分类元数据(例如商品的种类或颜色)来识别与用户最相关的商品的底层模式。您可以基于自己的使用案例来定义自己的值范围。分类元数据可以是任何语言。
对于所有配方和域,您可以导入分类数据,并使用它根据项目的属性筛选推荐。有关筛选建议的信息,请参阅。筛选推荐和用户细分.
分类值最多可包含 1000 个字符。如果某项的类别值超过 1000 个字符,则数据集导入作业将失败。
对于域数据集组,VIDEO_ON_DEMAND 和电子商务域都使用分类元数据。对于自定义数据集组和自定义解决方案,使用分类元数据的配方包括以下内容:
非结构化文本元数据
对于某些配方和域,Amazon Personalize 可以从非结构化文本元数据中提取有意义的信息,例如商品描述、商品评论或电影概要。Amazon Personalize 使用非结构化文本为您的用户识别相关商品,尤其是当商品为新商品或互动数据较少时。在 Items 数据集中包含非结构化文本数据,以提高目录中新项目的点击率和对话率。
要使用非结构化数据,请添加类型为的字段string
到你的物品架构并设置字段的textual
归因于true
. 然后将文本数据包含在批量 CSV 文件和单个项目导入中。对于批量 CSV 文件,请将文本用双引号括起来。使用\
字符来转义数据中的任何双引号或\ 字符。有关包含非结构化文本数据字段的 Items 架构的示例,请参阅项目数据集架构示例(自定义). Amazon Personalize 将按字符数限制截断文本字段。确保文本中最相关的信息位于字段的开头。有关将数据导入Amazon Personalize 的信息,请参阅。准备和导入数据.
在使用非结构化文本值之前,Amazon Personalize 会从文本中删除以下内容:
HTML 和 XML 标签和实体
换行、制表符和额外空格字符
在除中文和日语之外的所有语言中,非结构化文本值最多可包含 20,000 个字符。对于中文和日文,最多可以包含 7,000 个字符。Amazon Personalize 会将超出字符数限制的值截断为字符数限制。
文本可以是以下语言:
-
简体中文
-
繁体中文
-
英语
-
法语
-
德语
-
日语
-
葡萄牙语
-
西班牙语
您可以提交多种语言的非结构化文本项目,但每个项目的文本只能使用一种语言。
对于域数据集组,VIDEO_ON_DEMAND 和电子商务域都使用文本元数据。对于自定义数据集组和自定义解决方案,使用文本元数据的配方包括以下内容: