创建和使用 Data Wrangler 流程 - 亚马逊 SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

创建和使用 Data Wrangler 流程

使用 Amazon SageMaker Data Wrangler 流或数据流来创建和修改数据准备管道。数据流连接您创建的数据集、转换和分析或步骤,可用于定义流水线。

实例

当您在 Amazon SageMaker Studio 中创建 Data Wrangler 流程时,Data Wrangler 使用 Amazon EC2 实例在您的流程中运行分析和转换。默认情况下,Data Wrangler 使用 m5.4xlarge 实例。m5 实例是通用实例,可在计算和内存之间提供平衡。您可以将 m5 实例用于各种计算工作负载。

Data Wrangler 还允许您选择使用 r5 实例。r5 实例旨在提供处理内存中大型数据集的快速性能。

我们建议您选择针对您的工作负载进行最佳优化的实例。例如,r5.8xlarge 的价格可能比 m5.4xlarge 高,但是 r5.8xlarge 可能更适合您的工作负载。借助更好的优化实例,您可以在更短的时间内以更低的成本运行数据流。

下表显示了可用于运行 Data Wrangler 流程的实例。

标准实例 vCPU 内存
ml.m5.4xlarge 16 64 GiB
ml.m5.8xlarge 32 128 GiB
ml.m5.16xlarge 64

256 GiB

ml.m5.24xlarge 96 384 GiB
r5.4xlarge 16 128 GiB
r5.8xlarge 32 256 GiB
r5.24xlarge 96 768 GiB

有关 r5 实例的更多信息,请参阅 Amazon EC2 R5 实例。有关 m5 实例的更多信息,请参阅 Amazon EC2 M5 实例

每个 Data Wrangler 流都有一个与之关联的 Amazon EC2 实例。您可能有多个流程与单个实例相关联。

对于每个流文件,您可以无缝切换实例类型。如果您切换实例类型,则用于运行流程的实例将继续运行。

要切换流程的实例类型,请执行以下操作。

  1. 选择主页图标,

  2. 导航到你正在使用的实例并选择它。

  3. 选择要使用的实例类型。

  4. 选择保存

您需要为所有正在运行的实例付费。为避免产生额外费用,请关闭您未手动使用的实例。要关闭正在运行的实例,请使用以下步骤。

关闭正在运行的实例。

  1. 选择实例图标。下图显示了在何处选择 “正在运行的实例” 图标。

    
                        要查看正在运行的实例,请选择上图左侧红色文本框中突出显示的图标。
  2. 选择要关闭的实例旁边的关闭。

如果您关闭了用于运行流程的实例,则暂时无法访问该流程。如果您在尝试打开运行之前关闭的实例的流程时遇到错误,请等待 5 分钟,然后再次尝试将其打开。

当您将数据流导出到亚马逊简单存储服务或亚马逊 SageMaker 功能商店等位置时,Data Wrangler 会运行亚马逊 SageMaker 处理任务。您可以将以下实例之一用于处理作业。有关导出数据的更多信息,请参阅Export

标准实例 vCPU 内存
ml.m5.4xlarge 16 64 GiB
ml.m5.12xlarge 48

192 GiB

ml.m5.24xlarge 96 384 GiB

有关使用可用实例类型的每小时费用的更多信息,请参阅SageMaker 定价

数据流用户界面

导入数据集时,原始数据集出现在数据流上并被命名为。如果您在导入数据时启用了采样,则此数据集被命名为 “来源-采样”。Data Wrangler 会自动推断数据集中每列的类型,并创建一个名为 “数据类型” 的新数据框。您可以选择此框架来更新推断的数据类型。上传一个数据集后,您会看到类似于以下图像中所示的结果。

每次添加转换步骤时,都将创建一个新数据框。将多个转换步骤(连接或除外)添加到同一个数据集时,它们会堆叠起来。

接和连接创建包含新联接或串联数据集的独立步骤。

下图显示了在两个数据集之间连接的数据流以及两组步骤。第一个堆栈(步骤 (2))向数据类型数据集中推断的类型添加了两个变换。下堆栈或右边的堆栈向名为 demo- join 的连接生成的数据集添加变换。

数据流右下角的灰色小方框概述了数据流中的堆栈数量和步骤以及流程的布局。灰色方框内较亮的方框表示界面视图中的步骤。您可以使用此框查看用户界面视图之外的数据流部分。使用 fit screen 图标 ( ) 将所有步骤和数据集适合您的界面视图。

左下角的导航栏包含图标,您可以使用这些图标来放大 ( ) 和缩小 () 数据流的大小以适应屏幕 ( )。 使用锁定图标 ( ) 锁定和解锁屏幕上每个步骤的位置。

向您的数据流添加一个步骤

在任何数据集或之前添加的步骤旁边选择 +,然后选择以下选项之一:

  • 编辑数据类型(仅适用于数据类型步骤):如果您尚未向数据类型步骤添加任何转换,则可以选择编辑数据类型来更新 Data Wrangler 在导入数据集时推断的数据类型。

  • 添加转换:添加新的转换步骤。转换数据要了解有关可以添加的数据转换的更多信息,请参阅。

  • 添加分析:添加分析。您可以使用此选项在数据流的任何点分析数据。向步骤添加一个或多个分析时,该步骤上会出现一个分析图标 ( )。分析和可视化要了解有关可以添加的分析的更多信息,请参阅。

  • 联@@ :联接两个数据集并将生成的数据集添加到数据流中。要了解更多信息,请参阅 Join(

  • 串联:连接两个数据集并将生成的数据集添加到数据流中。要了解更多信息,请参阅 串联数据集

从您的数据流中删除一个步骤

要删除步骤,请选择该步骤并选择删除。如果该节点是具有单个输入的节点,则只能删除所选步骤。删除具有单个输入的步骤不会删除该步骤之后的步骤。如果您要删除源节点、联接节点或连接节点的步骤,则该步骤之后的所有步骤也会被删除。

要从步骤堆栈中删除步骤,请选择该堆栈,然后选择要删除的步骤。

您可以使用以下过程之一删除步骤而不删除下游步骤。

Delete a step in the Data Wrangler flow

您可以为数据流中只有单个输入的节点删除单个步骤。您无法删除源节点、联接节点和连接节点的单个步骤。

使用以下过程删除 Data Wrangler 流程中的一个步骤。

  1. 选择包含您要删除的步骤的步骤组。

  2. 选择步骤旁边的图标。

  3. 选择 “删除步骤”

Delete a step in the table view

使用以下过程删除表视图中的步骤。

您可以为数据流中只有单个输入的节点删除单个步骤。您无法删除源节点、联接节点和连接节点的单个步骤。

  1. 选择该步骤并打开该步骤的表格视图。

  2. 将光标移到步骤上方,这样就会出现省略号图标。

  3. 选择步骤旁边的图标。

  4. 选择删除

编辑 Data Wrangler 流程中的一个步骤

您可以编辑在 Data Wrangler 流程中添加的每个步骤。通过编辑步骤,您可以更改列的转换或数据类型。您可以编辑步骤以进行更改,从而更好地进行分析。

编辑步骤的方法有很多。一些示例包括更改估算方法或更改将值视为异常值的阈值。

使用以下过程编辑步骤。

要编辑步骤,请执行以下操作。

  1. 在 Data Wrangler 流程中选择一个步骤以打开表格视图。

  2. 在数据流中选择一个步骤。

  3. 编辑该步骤。

下图显示了一个编辑步骤的示例。

注意

您可以使用亚马逊 SageMaker 域内的共享空间来协作处理您的 Data Wrangler 流程。在共享空间内,您和您的合作者可以实时编辑流程文件。但是,您和您的合作者都无法实时看到变化。当有人对 Data Wrangler 流程进行更改时,他们必须立即将其保存。当有人保存文件时,除非关闭文件并重新打开,否则协作者将无法看到该文件。任何未由一个人保存的更改都将被保存更改的人覆盖。