物品数据集 - Amazon Personalize
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

物品数据集

您可以导入 Amazon Personalize 的物品数据包括数字和分类元数据,例如创建时间戳、价格、类型、描述和库存情况。您可以将有关物品的元数据导入到 Amazon Personalize 物品数据集

Amazon Personalize 在训练时不使用非分类字符串物品数据,例如物品标题或作者数据。但是,某些 Amazon Personalize 特征确实使用这些数据来改进建议。有关更多信息,请参阅非分类字符串数据

最大元数据列数为 100。模型在训练期间考虑的最大物品数为 75 万。Amazon Personalize 仅在生成建议时考虑这些物品。某些域和配方需要物品数据集。有关配方要求的更多信息,请参阅选择配方

此主题提供有关以下物品数据类型的信息:

创建时间戳数据

Amazon Personalize 使用创建时间戳数据(采用 Unix 纪元时间格式,以秒为单位),计算物品的使用年限并相应地调整建议。

如果缺少一件或多件物品的创建时间戳数据,则 Amazon Personalize 会从交互数据(如果有)中推断出此信息,并使用物品最早交互数据的时间戳作为物品的创建时间戳。如果某个物品没有交互数据,则其创建时间戳将设置为训练集中最新交互的时间戳,且 Amazon Personalize 会将其视为新物品。

分类元数据

对于某些配方和域,Amazon Personalize 在识别底层模式时使用分类元数据(例如物品的类型或颜色),向用户显示最相关的物品。您可以基于自己的使用案例来定义自己的值范围。分类元数据可以是任何语言。

对于所有配方和域,您可以导入分类数据,并使用此类数据,根据物品的属性筛选建议。有关筛选建议的信息,请参阅筛选建议和用户细分

分类值最多可以有 1000 个字符。如果您的物品的分类值超过 1000 个字符,则您的数据集导入作业将失败。

对于域数据集组,VIDEO_ON_DEMAND 和 ECOMMERCE 域都使用分类元数据。对于自定义数据集组和自定义解决方案,使用分类元数据的配方包括以下内容:

非结构化文本元数据

对于某些配方和域,Amazon Personalize 可以从非结构化文本元数据(例如产品描述、产品评论或电影提要)中提取有意义的信息。Amazon Personalize 使用非结构化文本为您的用户识别相关物品,尤其是在物品是新物品或交互数据较少的情况下。在物品数据集中包含非结构化文本数据,可以提高目录中新物品的点击率和对话率。

要使用非结构化数据,请在物品架构中添加一个类型为 string 的字段,并将该字段的 textual 属性设置为 true。然后,将文本数据包含在批量 CSV 文件和单个物品导入中。对于批量 CSV 文件,将文本用双引号括起来。使用 \ 字符,对数据中的任何双引号或 \ 字符进行转义处理。您最多可添加 1 个文本字段。有关包含非结构化文本数据字段的物品架构的示例,请参阅物品数据集架构示例(自定义)。Amazon Personalize 会按字符限制截断文本字段。确保文本中最相关的信息位于字段的开头。有关将数据导入 Amazon Personalize 的信息,请参阅步骤 2:准备和导入数据

在使用非结构化文本值之前,Amazon Personalize 会从文本中删除以下内容:

  • HTML 和 XML 标签与实体

  • 换行符、制表符和多余空格字符

除中文和日语外,所有语言的非结构化文本值最多可以包含 2 万个字符。对于中文和日语,最多可以包含 7 千个字符。Amazon Personalize 会将超过字符限制的值截断,使其符合字符限制。

文本可使用以下语言:

  • 中文(简体)

  • 中文(繁体)

  • 英语

  • 法语

  • 德语

  • 日语

  • 葡萄牙语

  • 西班牙语

您可以采用多种语言提交非结构化文本物品,但每个物品的文本只能使用一种语言。

对于域数据集组,VIDEO_ON_DEMAND 和 ECOMMERCE 域都使用文本元数据。对于自定义数据集组和自定义解决方案,使用文本元数据的配方包括以下内容:

非分类字符串数据

除了物品 ID 外,Amazon Personalize 在训练时不使用非分类字符串数据,例如物品标题或作者数据。但是,Amazon Personalize 可以将其与以下特征结合使用:

  • Amazon Personalize 可以在建议中包含物品元数据,包括非分类字符串值。您可以使用元数据来丰富用户界面中的建议,例如将导演的姓名添加到电影建议轮播中。有关更多信息,请参阅在建议中启用元数据

  • 如果您使用Similar-Items,则可以生成带有主题的批量建议。生成带有主题的批量建议时,必须在批量推理作业中指定物品名称列。有关更多信息,请参阅内容生成器中带有主题的批量建议

  • 您可以创建筛选条件,以根据非分类字符串数据在建议中包含或删除物品。有关筛选条件的更多信息,请参阅筛选建议和用户细分