创建和使用数据牧师流 - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 Amazon Web Services 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

创建和使用数据牧师流

使用 Amazon SageMaker er 数据牧羊人流程或数据流,以创建和修改数据准备管道。数据流将数据集、转换和分析连接起来,或steps,您可以创建并用于定义管线。

Instances

创建数据工作者流时,您可以从下表中选择 ml.m5 实例:

标准实例 vCPU 内存
ml.m5.4xlarge 16 64 GiB
ml.m5.12xlarge 48

192 GiB

ml.m5.24xlarge 96 384 GiB

有关使用可用实例类型的每小时成本的更多信息,请参阅SageMaker 定价.

数据流 UI

导入数据集时,原始数据集将显示在数据流中,并且名为. 如果在导入数据时启用了采样,则此数据集将名为源-取样. Data Wrangler 会自动推断数据集中每个列的类型,并创建一个名为数据类型. 您可以选择此框架来更新推断的数据类型。上传单个数据集后,您将会看到类似于下图所示的结果:

每次添加转换步骤时,都将创建一个新数据框。将多个转换步骤(除 “连接” 或 “连接” 之外)添加到同一数据集时,它们会堆叠。

“连接” 和 “连接” 可创建包含新连接或连接数据集的独立步骤。

下图显示了两个数据集之间的连接以及两个步骤堆栈的数据流。第一个堆栈 (步骤 (2))将两个转换添加到数据类型数据集。这些区域有:下游堆栈或右侧的堆栈,将转换添加到数据集中,这些转换由名为演示联接.

数据流右下角的灰色小框提供了流程中堆栈数和步骤数以及流的布局的概述。灰色框内的较亮框指示 UI 视图中的步骤。您可以使用此框查看 UI 视图以外的数据流部分。使用适合屏幕图标 ( )将所有步骤和数据集填充到 UI 视图中。

左下角的导航栏包含可用于放大的图标( )和输出( ),并调整数据流的大小以适应屏幕( )。使用锁定图标 ( )锁定和解锁每个步骤在屏幕上的位置。

将步骤添加到您的数据流

Select+旁边的任何数据集或之前添加的步骤,然后选择下列选项之一:

  • 编辑数据类型(适用于数据类型仅步骤):如果您尚未将任何转换添加到数据类型步骤,您可以选择编辑数据类型以更新导入数据集时推断的数据类型数据 Wrangler。

  • 添加转换:添加新的转换步骤。请参阅转换数据,了解有关可以添加的数据转换的详细信息。

  • 添加分析:添加分析。您可以使用此选项在数据流中的任意点分析数据。向步骤中添加一个或多个分析时,分析图标 ( )出现在该步骤中。请参阅分析和可视化以了解有关可以添加的分析的详细信息。

  • 加入:连接两个数据集并将生成的数据集添加到数据流中。要了解更多信息,请参阅“加入”。

  • 连接:连接两个数据集并将生成的数据集添加到数据流中。要了解更多信息,请参阅“连接数据集”。

从数据流中删除步骤

要删除步骤,请选择该步骤,然后选择Delete. 删除某个步骤时,连接到该步骤的所有后续步骤,或下游步骤,也会被删除。

要从步骤堆栈中删除步骤,请选择堆栈,然后选择要删除的步骤。

注意

您无法删除数据类型直接步骤。要移除此数据集,您必须删除对应的数据集。