本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
准备和导入批量数据
创建数据集后,您就可以开始将批量历史数据导入 Amazon Personalize 了。您可通过以下两种选择导入批量记录:
-
对于物品交互、用户和物品数据集,可以使用 Amazon SageMaker Data Wrangler 从 40 多个源导入数据,生成可视化和 Amazon Personalize 的特定见解,然后对其进行转换以满足 Amazon Personalize 要求。
-
对于所有数据集类型,可以将批量数据直接导入到数据集中。直接导入时,需要手动设置数据格式以满足 Amazon Personalize 要求并将其上传到 Amazon S3。然后创建架构和数据集,并使用数据集导入作业将数据直接导入到数据集中。
以下指导原则有助于确保批量数据格式正确。
-
您的输入数据必须在 CSV(逗号分隔值)文件中。
-
CSV 文件的第一行必须包含列标题。不要将标题括在引号 (") 中。
-
确保您的数据集类型有必填字段,并确保其名称符合 Amazon Personalize 要求。例如,您的物品数据可能有一个名为
ITEM_IDENTIFICATION_NUMBER
的列,其中包含每件物品的 ID。要将此列用作 ITEM_ID 字段,请将该列重命名为ITEM_ID
。如果您使用 Data Wrangler 来设置数据格式,则可以使用为 Amazon Personalize 映射列 Data Wrangler 转换,来确保您的列命名正确。有关必填字段的信息,请参阅架构。有关使用 Data Wrangler 准备数据的信息,请参阅使用 Amazon SageMaker Data Wrangler 准备和导入数据。
-
CSV 文件中的列标题名称必须映射到您的架构。
-
CSV 文件中的每条记录必须都在单行中。
-
每列中的数据类型必须映射到您的架构。如果您使用 Data Wrangler 设置数据格式,则可以使用 Data Wrangler 转换将值解析为类型来转换数据类型。
-
TIMESTAMP
和CREATION_TIMESTAMP
数据必须采用 UNIX 纪元 时间格式。有关更多信息,请参阅时间戳数据。 -
如果您的数据包含任何非 ASCII 编码字符,则必须采用 UTF-8 格式编码 CSV 文件。
-
确保按照非结构化文本元数据中所述设置所有文本数据的格式。
有关 Amazon Personalize 批量数据格式设置要求的更多信息,请参阅数据格式指南。
将数据导入 Amazon Personalize 数据集后,您可以对其进行分析,将其导出到 Amazon S3 存储桶,对其进行更新,或者通过删除数据集将其删除。有关更多信息,请参阅管理数据。
如果您已经创建了推荐器或通过市场活动部署了自定义解决方案版本,则新批量记录如何影响建议取决于您使用的域使用案例或配方。有关更多信息,请参阅新数据如何影响实时建议。
筛选批量记录的更新
在完成批量导入后 20 分钟内,Amazon Personalize 会使用您的新物品和用户数据,更新您在数据集组中创建的所有筛选器。此更新允许 Amazon Personalize 在筛选针对用户的建议时使用最新数据。