格式化输入数据 - Amazon Personalize
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 Amazon Web Services 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

格式化输入数据

您用于将数据导入 Amazon Personalize 的文件必须映射到您正在使用的架构。

Amazon Personalize 仅从逗号分隔值 (CSV) 格式的文件导入数据。Amazon Personalize 要求您的 CSV 文件的第一行包含列标题。CSV 文件中的列标题需要映射到此架构以创建数据集。不要用引号 (“) 将标题括起来。TIMESTAMPCREATION_TIMESTAMP数据必须在UNIX 纪元时间格式。有关更多信息,请参阅时间戳数据. 有关 schema 的更多信息,请参阅 数据集和架构

重要

如果数据包含任何非 ASCII 编码字符,则您的 CSV 文件必须采用UTF-8 格式编码。

以下互动数据代表来自销售电影票的网站的历史用户活动。您可以使用此数据训练基于其他用户的活动向用户提供电影推荐的模型。

USER_ID,ITEM_ID,EVENT_TYPE,EVENT_VALUE,TIMESTAMP 196,242,click,15,881250949 186,302,click,13,891717742 22,377,click,10,878887116 244,51,click,20,880606923 166,346,click,10,886397596 298,474,click,40,884182806 115,265,click,20,881171488 253,465,click,50,891628467 305,451,click,30,886324817

下面重复关联的交互架构。

{ "type": "record", "name": "Interactions", "namespace": "com.amazonaws.personalize.schema", "fields": [ { "name": "USER_ID", "type": "string" }, { "name": "ITEM_ID", "type": "string" }, { "name": "EVENT_TYPE", "type": "string" }, { "name": "EVENT_VALUE", "type": "float" }, { "name": "TIMESTAMP", "type": "long" } ], "version": "1.0" }

Amazon Personalize ersonalUSER_ID,ITEM_ID,以及TIMESTAMP字段之间没有不同。USER_ID是您的应用程序用户的标识符。ITEM_ID是电影的标识符。EVENT_TYPEEVENT_VALUE是用户活动的标识符。在示例数据中,click可能代表电影购买活动,15可能是电影的购买价格。TIMESTAMP代表购买电影时的 Unix 纪元时间。

时间戳数据

时间戳数据,例如TIMESTAMP(用于交互数据集)或CREATION_TIMESTAMP(对于 Items 数据集)数据,必须采用 Unix 纪元时间格式(以秒为单位)。例如,2020 年 7 月 31 日的 Epoch 时间戳(以秒为单位)为 1596238243。要将日期转换为 Unix 纪元时间戳,请使用纪元转换器-Unix 时间戳转换器.

格式化显式展示

如果您将用户个性化食谱,你可以记录和上传曝光数据。曝光量是用户在与特定项目互动(例如,点击或观看)时可见的项目列表。要在批量数据导入中上传展示次数数据,您需要手动记录每个商品 ID,用竖线 “|” 字符分隔各个值,作为历史互动数据的一部分。竖线字符计入展示次数数据的 1000 个字符限制中。有关展示数据,请参阅展示数据.

以下是 Interactions 数据集的简短摘录,其中包含明确的展示次数IMPRESSION列。

EVENT_TYPE 印象 ITEM_ID TIMESTAMP USER_ID
点击

73|70|17|95|96

73

1586731606

USER_1
点击

35|82|78|57|20|63|1|90|76|75|49|71|26|24|25|6

35

1586735164

USER_2
... ... ... ... ...

应用程序显示用户USER_1项目73,70,17,95,以及96然后用户最终选择了商品73. 当您基于此数据创建新的解决方案版本时,项目70,17,95,以及96会减少向用户推荐的频率USER_1.

分类数据

要在使用分类字符串数据时包含单个项目的多个类别,请使用竖线“|”字符分隔值。例如,对于具有两个类别的项目,数据行将如下所示:

ITEM_ID,GENRE item_123,horror|comedy

格式化数据后,将其上传到 Amazon S3 存储桶,这样您就可以将其导入Amazon Personalize。有关更多信息,请参阅上载到 Amazon S3 存储桶