使用 Amazon SageMaker Data Wrangler 准备和导入数据 - Amazon Personalize
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

使用 Amazon SageMaker Data Wrangler 准备和导入数据

重要

在使用 Data Wrangler 时,会产生 SageMaker 费用。有关费用和价格的完整列表,请参阅 Amazon SageMaker 定价的“Data Wrangler”选项卡。为避免产生额外费用,请在完成操作后关闭您的 Data Wrangler 实例。有关更多信息,请参阅关闭 Data Wrangler

创建数据集组后,您可以使用 Amazon SageMaker Data Wrangler (Data Wrangler),将来自 40 多个源的数据导入到 Amazon Personalize 数据集中。Data Wrangler 是 Amazon SageMaker Studio Classic 的一项特征,提供端到端解决方案,用于导入、准备、转换和分析数据。您不能使用 Data Wrangler 来准备数据并将其导入操作数据集或操作交互数据集。

使用 Data Wrangler 准备和导入数据时,您使用的是数据流。数据流 定义了一系列机器学习数据准备步骤,从导入数据开始。每次您向流添加步骤时,Data Wrangler 都会对您的数据执行操作,例如转换数据或生成可视化。

以下是您可以添加到流中用于为 Amazon Personalize 准备数据的一些步骤:

  • 见解: 您可以将 Amazon Personalize 特定见解步骤添加到您的流中。这些见解有助于您了解数据及可采取哪些操作来改善数据。

  • 可视化: 您可以添加可视化步骤来生成直方图和散点图等图表。图表可以帮助您发现数据中的问题,例如异常值或缺失值。

  • 转换: 您可以使用特定于 Amazon Personalize 的一般转换步骤来确保您的数据符合 Amazon Personalize 要求。Amazon Personalize 转换可帮助您将数据列映射到所需的列,具体取决于 Amazon Personalize 数据集类型。

如果您需要在将数据导入 Amazon Personalize 之前退出 Data Wrangler,则可以在从 Amazon Personalize 控制台启动 Data Wrangler 时选择相同的数据集类型,返回您之前离开的位置。或者,您可以直接通过 SageMaker Studio Classic 访问 Data Wrangler。

我们建议您将数据从 Data Wrangler 导入到 Amazon Personalize,如下所示。转换、可视化和分析步骤是可选、可重复的步骤,且可以按任何顺序完成。

  1. 设置权限 - 为 Amazon Personalize 和 SageMaker 服务角色设置权限。而且,为您的用户设置权限。

  2. 从 Amazon Personalize 控制台启动 SageMaker Studio Classic 中的 Data Wrangler - 使用 Amazon Personalize 控制台配置 SageMaker 域并启动 SageMaker Studio Classic 中的 Data Wrangler。

  3. 将您的数据导入 Data Wrangler - 将来自 40 多个源的数据导入 Data Wrangler。源包括 Amazon Redshift、Amazon EMR 或 Amazon Athena 等 Amazon 服务,以及 Snowflake 或 DataBricks 等第三方。

  4. 转换您的数据 - 使用 Data Wrangler 转换您的数据,以满足 Amazon Personalize 要求。

  5. 可视化和分析您的数据 - 使用 Data Wrangler 可视化您的数据,并通过 Amazon Personalize 特定见解对其进行分析。

  6. 处理数据并将其导入 Amazon Personalize - 使用 SageMaker Studio Classic Jupyter 笔记本将处理过的数据导入 Amazon Personalize。

其他信息

以下资源提供了有关使用 Amazon SageMaker Data Wrangler 和 Amazon Personalize 的更多信息。