格式化输入数据 - Amazon Personalize
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 AWS 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

格式化输入数据

您用于将数据导入 Amazon Personalize 的文件必须映射到您使用的架构。

Amazon Personalize 仅从逗号分隔值 (CSV) 格式的文件导入数据。Amazon Personalize 要求您的 CSV 文件的第一行包含列标题。CSV 文件中的列标题需要映射到此架构以创建数据集。不要将标题括在引号 (") 中。TIMESTAMPCREATION_TIMESTAMP数据必须位于UNIX 纪元时间格式。有关更多信息,请参阅 时间戳数据

重要

如果您的数据包含任何非 ASCII 编码的字符,则您的 CSV 文件必须采用 UTF-8 格式编码。

以下交互数据表示销售电影票的网站上的历史用户活动。您可以使用此数据训练基于其他用户的活动向用户提供电影推荐的模型。

USER_ID,ITEM_ID,EVENT_TYPE,EVENT_VALUE,TIMESTAMP 196,242,click,15,881250949 186,302,click,13,891717742 22,377,click,10,878887116 244,51,click,20,880606923 166,346,click,10,886397596 298,474,click,40,884182806 115,265,click,20,881171488 253,465,click,50,891628467 305,451,click,30,886324817

下面重复关联的交互架构。

{ "type": "record", "name": "Interactions", "namespace": "com.amazonaws.personalize.schema", "fields": [ { "name": "USER_ID", "type": "string" }, { "name": "ITEM_ID", "type": "string" }, { "name": "EVENT_TYPE", "type": "string" }, { "name": "EVENT_VALUE", "type": "float" }, { "name": "TIMESTAMP", "type": "long" } ], "version": "1.0" }

Amazon Personalize 服务需要USER_IDITEM_ID, 和TIMESTAMP字段。USER_ID是应用程序用户的标识符。ITEM_ID是电影的标识符。EVENT_TYPEEVENT_VALUE是用户活动的标识符。在示例数据中,click可能代表电影购买事件,15可能是电影的购买价格。TIMESTAMP表示购买电影的 Unix 纪元时间。

时间戳数据

时间戳数据,例如TIMESTAMP(对于交互数据集)或CREATION_TIMESTAMP(对于 Item 数据集)数据,必须采用 Unix 时代时间格式(以秒为单位)。例如,2020 年 7 月 31 日的纪元时间戳(以秒为单位)是 1596238243。要将日期转换为 Unix 时代时间戳,请使用时代转换器-Unix 时间戳转换器

格式化显式展示

如果您使用个性化用户配方,您可以记录和上传展示数据。展示次数是用户在与特定项目进行交互(例如,单击或观看)时可见的项目列表。要在批量数据导入中上传展示次数数据,您可以手动记录每个项目 ID,并使用垂直条 '|' 字符分隔这些值,作为历史交互数据的一部分。有关展示次数据的详细信息,请参阅展示数据

以下是 “交互” 数据集的简短摘录,其中包括IMPRESSIONcolumn.

EVENT_TYPE 印象 ITEM_ID TIMESTAMP USER_ID
单击

73|70|95|96

73

1586731606

用户 _1
单击

78|6|6|6|6|6|

35

1586735164

用户 _2
... ... ... ... ...

应用程序显示用户USER_1项目73701795, 和96并且用户最终选择了项目73。基于此数据创建新的解决方案版本时,701795, 和96将不太频繁地推荐给用户USER_1

分类数据

要在使用分类字符串数据时包含单个项目的多个类别,请使用竖线“|”字符分隔值。例如,要使用两个分类匹配上一节中的项目架构,数据行将与下面类似:

ITEM_ID,GENRE item_123,horror|comedy

在您设定数据格式后,将其上传到 Amazon S3 存储桶,以便将其导入 Amazon Simple Service。有关更多信息,请参阅上传至 Amazon S3 存储桶