本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
物品数据集
您可以导入 Amazon Personalize 的物品数据包括数字和分类元数据,例如创建时间戳、价格、类型、描述和库存情况。您可以将有关物品的元数据导入到 Amazon Personalize 物品数据集。
Amazon Personalize 在训练时不使用非分类字符串物品数据,例如物品标题或作者数据。但是,某些 Amazon Personalize 特征确实使用这些数据来改进建议。有关更多信息,请参阅非分类字符串数据
最大元数据列数为 100。Amazon Personalize 在培训期间考虑的最大商品数量取决于您的用例或食谱。只有培训期间考虑的项目才能出现在推荐中。
对于用户个性化-v2 或个性化排名-v2,模型在训练期间考虑的最大项目数为 500 万。这些项目来自项目和项目交互数据集。
-
对于除用户个性化-v2 和 personalized-ranking-v2 之外的所有域用例和自定义配方,模型在训练和生成推荐期间考虑的最大项目数为 750,000 个。
有关配方要求的更多信息,请参阅选择食谱。
此主题提供有关以下物品数据类型的信息:
创建时间戳数据
Amazon Personalize 使用创建时间戳数据(采用 Unix 纪元时间格式,以秒为单位),计算物品的使用年限并相应地调整建议。
如果缺少一件或多件物品的创建时间戳数据,则 Amazon Personalize 会从交互数据(如果有)中推断出此信息,并使用物品最早交互数据的时间戳作为物品的创建时间戳。如果某个物品没有交互数据,则其创建时间戳将设置为训练集中最新交互的时间戳,且 Amazon Personalize 会将其视为新物品。
分类元数据
对于某些食谱和域,Amazon Personalize 在识别底层模式时使用分类元数据(例如物品的类型或颜色),向用户显示最相关的物品。您可以基于自己的使用案例来定义自己的值范围。分类元数据可以是任何语言。
对于所有食谱和域,您可以导入分类数据,并使用此类数据,根据物品的属性筛选建议。有关筛选建议的信息,请参阅筛选建议和用户细分。
分类值最多可以有 1000 个字符。如果您的物品的分类值超过 1000 个字符,则您的数据集导入作业将失败。
对于域数据集组,VIDEO_ON_DEMAND 和 ECOMMERCE 域都使用分类元数据。对于自定义数据集组和自定义解决方案,使用分类元数据的食谱包括以下内容:
非结构化文本元数据
对于某些食谱和域,Amazon Personalize 可以从非结构化文本元数据(例如产品描述、产品评论或电影提要)中提取有意义的信息。Amazon Personalize 使用非结构化文本为您的用户识别相关物品,尤其是在物品是新物品或交互数据较少的情况下。在物品数据集中包含非结构化文本数据,可以提高目录中新物品的点击率和对话率。
要使用非结构化数据,请在物品架构中添加一个类型为 string
的字段,并将该字段的 textual
属性设置为 true
。您最多可添加 1 个文本字段。然后,将文本数据包含在批量 CSV 文件和单个物品导入中。
对于批量 CSV 文件,请将文本用双引号括起来,并删除所有换行符。使用 \
字符,对数据中的任何双引号或 \ 字符进行转义处理。有关包含非结构化文本数据字段的物品架构的示例,请参阅物品数据集架构示例(自定义)。Amazon Personalize 会按字符限制截断文本字段。确保文本中最相关的信息位于字段的开头。有关将数据导入 Amazon Personalize 的信息,请参阅步骤 2:准备和导入数据。
除中文和日语外,所有语言的非结构化文本值最多可以包含 2 万个字符。对于中文和日语,最多可以包含 7 千个字符。Amazon Personalize 会将超过字符限制的值截断,使其符合字符限制。
文本可使用以下语言:
-
中文(简体)
-
中文(繁体)
-
English
-
法语
-
德语
-
日语
-
葡萄牙语
-
西班牙语
您可以采用多种语言提交非结构化文本物品,但每个物品的文本只能使用一种语言。
对于域数据集组,VIDEO_ON_DEMAND 和 ECOMMERCE 域都使用文本元数据。对于自定义数据集组和自定义解决方案,使用文本元数据的食谱包括以下内容:
非分类字符串数据
除了物品 ID 外,Amazon Personalize 在训练时不使用非分类字符串数据,例如物品标题或作者数据。但是,Amazon Personalize 可以将其与以下特征结合使用:
-
Amazon Personalize 可以在建议中包含物品元数据,包括非分类字符串值。您可以使用元数据来丰富用户界面中的建议,例如将导演的姓名添加到电影建议轮播中。有关更多信息,请参阅 推荐中的商品元数据。
-
如果您使用Similar-Items,则可以生成带有主题的批量建议。生成带有主题的批量建议时,必须在批量推理作业中指定物品名称列。有关更多信息,请参阅 内容生成器中带有主题的批量建议。
-
您可以创建筛选条件,以根据非分类字符串数据在建议中包含或删除物品。有关筛选条件的更多信息,请参阅筛选建议和用户细分。