创建和使用Data Wrangler流 - Amazon SageMaker
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 AWS 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

创建和使用Data Wrangler流

使用 Amazon SageMaker Data Wrangler 流或 数据流创建和修改数据准备管道。数据流连接数据集、转换和分析或步骤,您创建并可用于定义管道。

Instances

创建Data Wrangler流时,您可以从下表中选择 m5 实例:

标准实例 vCPU 内存
ml.m5.4xlarge 16 64 GiB
ml.m5.12xlarge 48

192 GiB

ml.m5.24xlarge 96 384 GiB

有关使用可用实例类型的每小时成本的更多信息,请参阅 SageMaker 定价

数据流 UI

导入数据集时,原始数据集将显示在数据流上,并命名为 Source (源)。如果您在导入数据时启用了采样,则此数据集将命名为 Source - sampled (源 - 采样)。 Data Wrangler 自动推断数据集中每个列的类型并创建一个名为 Data types (数据类型) 的新数据帧。您可以选择此帧来更新推断的数据类型。上传单个数据集后,您将看到与下图中所示的结果类似的结果:

每次添加转换步骤时,都会创建一个新的数据帧。将多个转换步骤(除 Join (联接) 或 Concatenate (联接) 之外)添加到同一数据集时,将进行堆栈。

联接和联接 创建包含新的联接或联接数据集的独立步骤。

下图显示了一个在两个数据集之间联接的数据流,以及两个步骤堆栈。第一个堆栈(步骤 (2))向 数据类型数据集中推断的类型添加两个转换。下游堆栈或右侧的堆栈将转换添加到由名为 demo-join 的联接生成的数据集。

数据流右下角的小灰色框概述了流中的堆栈和步骤数以及流的布局。灰色框内的较浅框指示 UI 视图中的步骤。您可以使用此框查看 UI 视图以外的数据流部分。使用适合屏幕图标 ( ) 将所有步骤和数据集填充到 UI 视图中。

左下角导航栏包含一些图标,您可以使用这些图标来放大 ( ) 和缩小 ( ) 数据流并调整数据流大小以适应屏幕 ( )。使用锁定图标 ( ) 锁定和解锁屏幕上每个步骤的位置。

向数据流添加步骤

选择任何数据集旁边的 + 或之前添加的步骤,然后选择以下选项之一:

  • 编辑数据类型(仅适用于 Data types step (数据类型步骤)):如果您尚未向 Data types (数据类型) 步骤添加任何转换,则可以选择 Edit data types (编辑数据类型) 以更新导入数据集时Data Wrangler推断的数据类型。

  • Add transform (添加转换):添加新的转换步骤。请参阅 转换数据 以了解有关您可以添加的数据转换的更多信息。

  • Add analysis (添加分析):添加分析。您可以使用此选项在数据流中的任何时间点分析数据。当您向步骤添加一个或多个分析时,该步骤上会显示分析图标 ( )。请参阅 分析和可视化 以了解有关您可以添加的分析的更多信息。

  • Join (联接):联接两个数据集并将生成的数据集添加到数据流中。要了解更多信息,请参阅“联接数据集”。

  • 联接:联接两个数据集并将生成的数据集添加到数据流中。要了解更多信息,请参阅“联接数据集”。

从数据流中删除步骤

要删除某个步骤,请选择该步骤,然后选择 Delete (删除)。删除某个步骤时,连接到该步骤或下游步骤的所有后续步骤也会被删除。

要从步骤堆栈中删除步骤,请选择堆栈,然后选择要删除的步骤。

注意

您无法直接删除 Data type (数据类型) 步骤。要删除此数据集,您必须删除相应的数据集。