设定输入数据的格式 - Amazon Personalize
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 Amazon Web Services 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

设定输入数据的格式

您用于将数据导入 Amazon Personalize 的文件必须映射到您所使用的架构。

Amazon Personalize 仅从逗号分隔值 (CSV) 格式的文件导入数据。Amazon Personalize 要求您的 CSV 文件的第一行包含列标题。CSV 文件中的列标题需要映射到此架构以创建数据集。不要将标题括在引号 (") 中。TIMESTAMPCREATION_TIMESTAMP数据必须在UNIX 纪元时间格式。有关更多信息,请参阅时间戳数据.

重要

如果您的数据包含任何非 ASCII 编码字符,则您的 CSV 文件必须采用 UTF-8 格式编码。

以下互动数据表示销售电影票的网站上的历史用户活动。您可以使用此数据训练基于其他用户的活动向用户提供电影推荐的模型。

USER_ID,ITEM_ID,EVENT_TYPE,EVENT_VALUE,TIMESTAMP 196,242,click,15,881250949 186,302,click,13,891717742 22,377,click,10,878887116 244,51,click,20,880606923 166,346,click,10,886397596 298,474,click,40,884182806 115,265,click,20,881171488 253,465,click,50,891628467 305,451,click,30,886324817

下面重复关联的交互架构。

{ "type": "record", "name": "Interactions", "namespace": "com.amazonaws.personalize.schema", "fields": [ { "name": "USER_ID", "type": "string" }, { "name": "ITEM_ID", "type": "string" }, { "name": "EVENT_TYPE", "type": "string" }, { "name": "EVENT_VALUE", "type": "float" }, { "name": "TIMESTAMP", "type": "long" } ], "version": "1.0" }

Amazon Personalize 要求USER_IDITEM_ID, 和TIMESTAMP字段之间没有不同。USER_ID是应用程序用户的标识符。ITEM_ID是电影的标识符。EVENT_TYPEEVENT_VALUE是用户活动的标识符。在示例数据中,click可能代表电影购买活动15可能是电影的购买价格。TIMESTAMP表示购买电影的 Unix 纪元。

时间戳数据

时间戳数据,例如TIMESTAMP(对于交互数据集)或CREATION_TIMESTAMP(对于 Item 数据集)数据,必须采用 Unix 纪元时间格式(以秒为单位)。例如,2020 年 7 月 31 日的时代时间戳(以秒为单位)为 1596238243。要将日期转换为 Unix 纪元时间戳,请使用时代转换器-Unix 时间戳转换.

设定显式展示

如果您将用户个性化配方,您可以记录和上传展示数据。展示次数是用户在与特定项目互动(例如点击或观看)特定项目时可见的项目列表。要在批量数据导入中上传展示量数据,您可以手动记录每个商品 ID,并用竖条 “|” 字符分隔值,作为历史交互数据的一部分。有关展示数据的更多信息,请参阅展示数据.

以下是 “互动” 数据集的简短摘录,该数据集中包含显式展示IMPRESSIONcolumn.

EVENT_TYPE 印象 ITEM_ID TIMESTAMP USER_ID
点击

73|70|17|95|96

73

1586731606

USER_1
点击

35|82|78|57|20|63|1|90|76|75|49|71|26|24|25|6

35

1586735164

USER_2
... ... ... ... ...

该应用程序显示用户USER_1项目73701795, 和96用户最终选择了物品73. 当你根据这些数据创建新的解决方案版本时,701795, 和96将不太频繁地推荐给用户USER_1.

分类数据

要在使用分类字符串数据时包含单个项目的多个类别,请使用竖线“|”字符分隔值。例如,对于包含两个分类的项目,数据行将与下面类似:

ITEM_ID,GENRE item_123,horror|comedy

设定数据格式后,将其上传到 Amazon S3 存储桶,以便将其导入 Amazon Personalize。有关更多信息,请参阅上载到 Amazon S3 存储桶