本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
设定输入数据格式
您用于将数据导入 Amazon Personalize 的文件必须映射到您所使用的架构。
Amazon Personalize 仅从逗号分隔值 (CSV) 格式的文件导入数据。Amazon Personalize 要求您的 CSV 文件的第一行包含列标题。CSV 文件中的列标题需要映射到此架构以创建数据集。不要将标题括在引号 (") 中。TIMESTAMP
和CREATION_TIMESTAMP
数据必须在UNIX 纪元时间格式。有关更多信息,请参阅时间戳数据.
如果您的数据包含任何非 ASCII 编码字符,您的 CSV 文件必须采用 UTF-8 格式编码。
以下互动数据表示销售电影票的网站上的历史用户活动。您可以使用此数据训练基于其他用户的活动向用户提供电影推荐的模型。
USER_ID,ITEM_ID,EVENT_TYPE,EVENT_VALUE,TIMESTAMP 196,242,click,15,881250949 186,302,click,13,891717742 22,377,click,10,878887116 244,51,click,20,880606923 166,346,click,10,886397596 298,474,click,40,884182806 115,265,click,20,881171488 253,465,click,50,891628467 305,451,click,30,886324817
下面重复关联的交互架构。
{ "type": "record", "name": "Interactions", "namespace": "com.amazonaws.personalize.schema", "fields": [ { "name": "USER_ID", "type": "string" }, { "name": "ITEM_ID", "type": "string" }, { "name": "EVENT_TYPE", "type": "string" }, { "name": "EVENT_VALUE", "type": "float" }, { "name": "TIMESTAMP", "type": "long" } ], "version": "1.0" }
Amazon Personalize 要求USER_ID
、ITEM_ID
, 和TIMESTAMP
字段之间没有不同。USER_ID
是应用程序用户的标识符。ITEM_ID
是电影的标识符。EVENT_TYPE
和EVENT_VALUE
是用户活动的标识符。在示例数据中,click
可能代表电影购买活动15
可能是电影的购买价格。TIMESTAMP
表示购买电影的 Unix 纪元。
时间戳数据
时间戳数据,例如TIMESTAMP
(对于交互数据集)或CREATION_TIMESTAMP
(对于 Item 数据集)数据,必须采用 Unix 纪元时间格式(以秒为单位)。例如,2020 年 7 月 31 日的时代时间戳(以秒为单位)为 1596238243。要将日期转换为 Unix 纪元时间戳,请使用时代转换器-Unix 时间戳转换
设定显式展示
如果您将用户个性化配方,您可以记录和上传展示数据。展示次数是用户在与特定项目互动(例如点击或观看)特定项目时可见的项目列表。要在批量数据导入中上传展示量数据,您可以手动记录每个商品 ID,并用竖条 “|” 字符分隔值,作为历史交互数据的一部分。有关展示数据的更多信息,请参阅展示数据.
以下是 “互动” 数据集的简短摘录,该数据集中包含显式展示IMPRESSION
column.
EVENT_TYPE | 印象 | ITEM_ID | TIMESTAMP | USER_ID |
---|---|---|---|---|
点击 |
73|70|17|95|96 |
73 |
1586731606 |
USER_1 |
点击 |
35|82|78|57|20|63|1|90|76|75|49|71|26|24|25|6 |
35 |
1586735164 |
USER_2 |
... | ... | ... | ... | ... |
该应用程序显示用户USER_1
项目73
、70
、17
、95
, 和96
用户最终选择了物品73
. 当你根据这些数据创建新的解决方案版本时,70
、17
、95
, 和96
将不太频繁地推荐给用户USER_1
.
分类数据
要在使用分类字符串数据时包含单个项目的多个类别,请使用竖线“|”字符分隔值。例如,要使用两个分类匹配上一节中的项目架构,数据行将与下面类似:
ITEM_ID,GENRE item_123,horror|comedy
设定数据格式后,将其上传到 Amazon S3 存储桶,以便将其导入 Amazon Personalize。有关更多信息,请参阅上传到 Amazon S3 存储桶。