创建数据流 - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

创建数据流

使用 Canva SageMaker s 中的 Data Wrangler 流程或数据流来创建和修改数据准备管道。您在数据流中使用的数据集、转换和分析以步骤表示。

将数据导入数据流

要开始使用数据流,请将您的数据导入其中。要使用大于 5 GB 的数据集,必须直接从数据源导入数据,而不是使用 SageMaker Canvas 数据集。

使用以下步骤将您的数据导入数据流。

将数据导入数据流
  1. 打开 SageMaker 画布。

  2. 在左侧导航栏中,选择

  3. 选择 “数据流”。

  4. 选择创建

  5. (可选)在数据流名称中,指定数据流的名称。

    • 要使用已导入 SageMaker Canvas 的 SageMaker 画布数据集,请选择选择现有数据集

      1. 选择数据集类型。

      2. 选择 SageMaker 画布数据集。

    • 要直接从数据源导入数据,请选择导入数据,然后从下拉菜单中选择表格图像

      1. 对于数据源,选择一个数据源。

      2. 连接到数据源以浏览数据并导入数据集。有关连接到数据源或导入数据的信息,请参阅以下页面:

      3. 选择预览数据

      4. (可选)对于导入表格数据集时的导入设置部分,展开高级下拉菜单。您可以为数据流导入指定以下高级设置:

        • 采样方法-选择要使用的采样方法和样本量。有关采样方法的更多信息,请参阅此过程之后的部分导入采样

        • 文件编码 (CSV)-选择数据集文件的编码。 UTF-8是默认值。

        • 跳过第一行-如果数据集的开头有冗余行,请输入要跳过导入的行数。

        • 分隔符-选择用于分隔数据中每项的分隔符。您也可以指定自定义分隔符。

        • 多行检测-如果您希望 Canvas 手动解析多行单元格的整个数据集,请选择此选项。Canvas 通过采集数据样本来确定是否使用多行支持,但是 Canvas 可能无法在样本中检测到任何多行单元格。在这种情况下,我们建议您选择多行检测选项,以强制 Canvas 检查整个数据集中的多行单元格。

      5. 选择导入数据

导入采样

将表格数据导入 Data Wrangler 数据流时,您可以选择对数据集进行采样,以加快数据探索和清理过程。在数据集样本上运行探索性变换通常比对整个数据集运行变换更快,当您准备好导出数据集并构建模型时,可以将变换应用于完整的数据集。

画布支持以下采样方法:

  • FirstK — Canvas 从您的数据集中选择前 K 个项目,其中 K 是您指定的数字。这种采样方法很简单,但是如果您的数据集不是随机排序的,则可能会引入偏差。

  • 随机 — Canvas 从数据集中随机选择项目,每个项目被选中的概率相等。这种采样方法有助于确保样本代表整个数据集。

  • 分@@ — Canvas 根据一个或多个属性(例如年龄和收入水平)将数据集划分为组(或分层)。然后,从每组中随机选择一定数量的项目。该方法可确保样本中所有相关的子组都得到充分的表达。

数据流 UI

导入数据集时,原始数据集会出现在数据流中并命名为 S ou rce。 SageMaker Canvas 会自动推断数据集中每列的类型,并创建一个名为 “数据类型” 的新数据框。您可以选择此框架来更新推断的数据类型。

每次添加转换步骤时,都会创建一个新的数据框。将多个转换步骤(联接串联除外)添加到同一个数据集时,它们会堆叠在一起。

联接串联会创建包含新的联接或串联数据集的独立步骤。

为您的数据流添加步骤

选择任何数据集或之前添加的步骤旁边的 +,然后选择以下选项之一:

  • 编辑数据类型(仅适用于数据类型步骤):如果您还没有向数据类型步骤添加任何转换,则可以选择编辑数据类型,来更新 Data Wrangler 在导入您的数据集时推断出的数据类型。

  • 添加转换:添加新的转换步骤。要了解有关您可添加的数据转换的更多信息,请参阅 转换数据

  • 添加分析:添加分析。可以使用此选项在数据流中的任何点分析您的数据。要了解有关可添加的分析的更多信息,请参阅 执行探索性数据分析 (EDA)

  • 联接:联接两个数据集并将生成的数据集添加到数据流中。要了解更多信息,请参阅联接数据集

  • 串联:串联两个数据集并将生成的数据集添加到数据流中。要了解更多信息,请参阅串联数据集

对数据流中的步骤重新排序

向数据流添加步骤后,您可以选择对步骤进行重新排序,而不是按正确的顺序删除和重新添加步骤。例如,在开始格式化字符串之前,您可能决定移动转换以估算缺失值。

注意

您无法更改某些步骤类型的顺序,例如定义数据源、更改数据类型、联接、连接或拆分。无法重新排序的步骤在 Canvas 应用程序用户界面中显示为灰色。

要对数据流步骤重新排序,请执行以下操作:

  1. 在 Canvas 应用程序中编辑数据流时,选择显示步骤。将出现一个按顺序列出您的数据流步骤的侧面板。

  2. 将鼠标悬停在变换步骤上,然后选择该步骤旁边的更多选项图标 ( )。

  3. 从上下文菜单中选择 “重新排序”。

  4. 将数据流步骤拖放到所需的顺序中。

  5. 完成后,选择 “保存”。

现在,您的数据流步骤和图表应反映出您所做的更改。

编辑数据源步骤

您可能需要在不删除应用于原始数据的转换和数据流步骤的情况下切换数据源或数据集。在 Data Wrangler 中,您可以在保留数据流步骤的同时替换数据源。您可以选择不同的数据集,甚至可以完全从不同的数据源导入数据。

要替换数据源,请执行以下操作:

  1. 在 Canvas 应用程序中,转到 Data Wrangler 页面

  2. 选择数据流旁边的省略号图标,然后选择查看

  3. 在显示您的数据流步骤的图表中,找到要编辑的节点。

  4. 选择节点旁边的省略号图标。

  5. 在快捷菜单中,将鼠标悬停在 “替换” 上,然后根据需要从新源导入数据还是要选择已导入到 Canvas 的数据集,从不同的数据源或现有数据集中进行选择。

  6. 通过 “将数据导入数据流” 体验来更新数据。

  7. 选择数据并准备好更新源节点后,选择 “保存”。

现在,您应该看到数据流中的节点已更新。

从数据流中删除一个步骤

要删除某个步骤,请选择该步骤旁边的 +,然后选择删除。如果该节点是具有单个输入的节点,则只能删除您选择的步骤。删除具有单个输入的步骤时,不会删除该步骤后面的步骤。如果您要删除源节点、联接节点或串联节点的步骤,则后面的所有步骤也会被删除。

要从步骤堆栈中删除某个步骤,请选择该堆栈,然后选择要删除的步骤。

可以使用以下过程之一删除一个步骤,而不删除下游步骤。

Delete a step in the Data Wrangler flow

可以删除数据流中具有单个输入的节点的单个步骤。无法删除源节点、联接节点和串联节点的单独步骤。

使用以下过程可以删除 Data Wrangler 流中的步骤。

  1. 选择您要删除的步骤所属的步骤组。

  2. 选择步骤旁边的图标。

  3. 选择删除步骤

Delete a step in the table view

使用以下过程删除表视图中的步骤。

可以删除数据流中具有单个输入的节点的单个步骤。无法删除源节点、联接节点和串联节点的单独步骤。

  1. 选择步骤,并打开该步骤的表视图。

  2. 将光标移到步骤上方,即可显示省略号图标。

  3. 选择步骤旁边的图标。

  4. 选择删除