导出 - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

导出

在 Data Wrangler 流中,可以将所做的部分或全部转换导出到数据处理管道中。

Data Wrangler 流是您对数据执行的一系列数据准备步骤。在数据准备过程中,需要对数据进行一次或多次转换。每次转换都是使用转换步骤完成的。该流包含一系列节点,这些节点代表您的数据导入和您执行的转换。有关节点的示例,请参阅下面的图像。

上图显示了带两个节点的 Data Wrangler 流。来源 – 采样节点显示您从中导入数据的数据来源。数据类型节点指示 Data Wrangler 已执行转换将数据集转换为可用格式。

添加到 Data Wrangler 流的每个转换都显示为一个附加节点。有关可添加的转换的信息,请参阅转换数据。下图显示了一个 Data Wrangler 流,该流具有用于更改数据集内列名的重命名列节点。

可以将数据转换导出到以下位置:

  • Amazon S3

  • SageMaker Pipelines

  • Amazon SageMaker Feature Store

  • Python Code

重要

我们建议您使用 IAM AmazonSageMakerFullAccess 托管式策略,向 Amazon 授予使用 Data Wrangler 的权限。如果您不使用托管式策略,则可以使用 IAM 策略,向 Data Wrangler 授予对 Amazon S3 存储桶的访问权限。有关托管式策略的更多信息,请参阅安全和权限

导出数据流时,您需要为所使用的 Amazon 资源付费。可以使用成本分配标签来组织和管理这些资源的成本。您负责为用户配置文件创建这些标签,Data Wrangler 会自动将标签应用于用来导出数据流的资源。有关更多信息,请参阅使用成本分配标签

导出到 Amazon S3

利用 Data Wrangler,您可以将数据导出到 Amazon S3 存储桶中的某个位置。您可以使用以下方法之一指定该位置:

  • 目标节点 – Data Wrangler 在处理完数据后存储数据的位置。

  • 导出目标 – 将转换后生成的数据导出到 Amazon S3。

  • 导出数据 – 对于小数据集,可以快速导出转换的数据。

使用以下部分详细了解这些方法中的每种方法。

Destination Node

如果您要将已执行的一系列数据处理步骤输出到 Amazon S3,可以创建一个目标节点。处理完数据后,目标节点会指示 Data Wrangler 将数据存储在什么位置。创建目标节点后,您可以创建一个处理作业来输出数据。处理作业是指 Amazon SageMaker 处理作业。使用目标节点时,处理作业会运行将已转换的数据输出到 Amazon S3 所需的计算资源。

可以使用目标节点导出您在 Data Wrangler 流中进行的某些转换或所有转换。

可以使用多个目标节点来导出不同的转换或转换集。以下示例显示了单个 Data Wrangler 流中的两个目标节点。

可以使用以下过程创建目标节点并导出到 Amazon S3 存储桶。

要导出数据流,您需要创建目标节点以及用于导出数据的 Data Wrangler 作业。创建 Data Wrangler 作业会启动 SageMaker 处理作业来导出您的流。您创建目标节点后,可以选择要导出的目标节点。

注意

可以在 Data Wrangler 流中选择创建作业,查看使用处理作业的说明。

使用以下过程创建目标节点。

  1. 选择代表要导出的转换的节点旁边的 +

  2. 选择添加目标

  3. 选择 Amazon S3

  4. 指定以下字段。

    • 数据集名称 – 您为要导出的数据集指定的名称。

    • 文件类型 – 要导出的文件的格式。

    • 分隔符(仅限 CSV 和 Parquet 文件)– 用于分隔其他值的值。

    • 压缩(仅限 CSV 和 Parquet 文件)– 用于减小文件大小的压缩方法。可以使用以下压缩方法:

      • bzip2

      • deflate

      • gzip

    • (可选)Amazon S3 位置 – 用于输出文件的 S3 位置。

    • (可选)分区数 – 作为处理作业输出正在写入的数据集的数量。

    • (可选)按列分区 – 写入列中具有相同唯一值的所有数据。

    • (可选)推理参数 – 选择生成推理构件会将您在 Data Wrangler 流中使用的所有转换应用于进入推理管道的数据。管道中的模型会对转换后的数据进行预测。

  5. 选择添加目标

使用以下过程创建处理作业。

数据流页面创建作业,然后选择要导出的目标节点。

注意

可以在 Data Wrangler 流中选择创建作业,查看创建处理作业的说明。

  1. 选择创建作业。下图显示了在您选择创建作业后显示的窗格。

  2. 对于作业名称,指定导出作业的名称。

  3. 选择要导出的目标节点。

  4. (可选)指定 Amazon KMS 密钥 ARN。Amazon KMS 密钥是一个可用于保护数据的加密密钥。有关 Amazon KMS 密钥的更多信息,请参阅 Amazon Key Management Service

  5. (可选)在已训练参数下,如果您已完成以下操作,请选择重新拟合

    • 已对数据集进行采样

    • 已应用了转换,即利用您的数据在数据集内创建新列

    有关重新拟合已对整个数据集所做的转换的更多信息,请参阅重新拟合整个数据集的转换并导出

    注意

    对于图像数据,Data Wrangler 会导出您对所有图像所做的转换。重新拟合转换不适用于您的用例。

  6. 选择配置作业。下图显示了配置作业页面。

  7. (可选)配置 Data Wrangler 作业。可以执行以下配置:

    • 作业配置

    • Spark 内存配置

    • 网络配置

    • 标签

    • 参数

    • 关联日程安排

  8. 选择运行

Export to

作为使用目标节点的替代方案,可以使用导出目标选项,使用 Jupyter 笔记本将 Data Wrangler 流导出到 Amazon S3。可以在 Data Wrangler 流中选择任何数据节点并导出。导出数据节点时,会导出该节点所代表的转换及其之前的转换。

使用以下过程生成 Jupyter 笔记本并运行,将您的 Data Wrangler 流导出到 Amazon S3。

  1. 选择要导出的节点旁边的 +

  2. 选择导出目标

  3. 选择 Amazon S3(通过 Jupyter 笔记本)。

  4. 运行 Jupyter 笔记本。

运行笔记本时,它会在与 Data Wrangler 流相同的 Amazon Web Services 区域中导出您的数据流(.flow 文件)。

笔记本提供了可用于配置处理作业及其输出的数据的选项。

重要

我们为您提供作业配置,以便配置您的数据输出。对于分区和驱动程序内存选项,我们强烈建议不要指定配置,除非您已了解这些配置。

作业配置下,可以配置以下内容:

  • output_content_type – 输出文件的内容类型。使用 CSV 作为默认格式,但您可以指定 Parquet

  • delimiter – 写入 CSV 文件时用于分隔数据集内的值的字符。

  • compression – 如果已设置,则压缩输出文件。默认情况下使用 gzip 作为压缩格式。

  • num_partitions – Data Wrangler 作为输出写入的分区或文件的数量。

  • partition_by – 用于对输出进行分区的列的名称。

要将输出文件格式从 CSV 更改为 Parquet,请将值从 "CSV" 更改为 "Parquet"。对于前面的其余字段,取消注释包含要指定的字段的行。

(可选)配置 Spark 集群驱动程序内存下,可以在 config 字典中为作业配置 Spark 属性,例如 Spark 驱动程序内存。

下面显示了 config 字典。

config = json.dumps({ "Classification": "spark-defaults", "Properties": { "spark.driver.memory": f"{driver_memory_in_mb}m", } })

要将配置应用于处理作业,请取消注释以下行:

# data_sources.append(ProcessingInput( # source=config_s3_uri, # destination="/opt/ml/processing/input/conf", # input_name="spark-config", # s3_data_type="S3Prefix", # s3_input_mode="File", # s3_data_distribution_type="FullyReplicated" # ))
Export data

如果您想快速导出小型数据集进行转换,可以使用导出数据方法。当您开始选择导出数据时,Data Wrangler 会同步工作,以导出您转换到 Amazon S3 的数据。在 Data Wrangler 完成数据导出或您取消操作之前,您无法使用 Data Wrangler。

有关在 Data Wrangler 流中使用导出数据方法的信息,请参阅以下过程。

要使用导出数据方法,请执行以下操作:

  1. 在 Data Wrangler 流中选择一个节点,方法是将其打开(双击)。

  2. 配置导出数据的方法。

  3. 选择导出数据

当您将数据流导出到 Amazon S3 存储桶时,Data Wrangler 会将流文件的副本存储在 S3 存储桶中。它将流文件存储在 data_wrangler_flows 前缀下。如果您使用默认的 Amazon S3 存储桶来存储流文件,它将使用以下命名约定:sagemaker-region-account number。例如,如果您的账号是 111122223333,并且您在 us-east-1 中使用 Studio,则导入的数据集存储在 sagemaker-us-east-1-111122223333 中。在本示例中,您在 us-east-1 中创建的 .flow 文件存储在 s3://sagemaker-region-account number/data_wrangler_flows/ 中。

导出到 SageMaker Pipelines

如果您希望要构建和部署大规模机器学习 (ML) 工作流,可以使用 SageMaker Pipelines 来创建用于管理和部署 SageMaker 作业的工作流。借助 SageMaker Pipelines,您可以构建用于管理 SageMaker 数据准备、模型训练和模型部署作业的工作流。您可以通过 SageMaker Pipelines 使用 SageMaker 提供的第一方算法。有关 SageMaker Pipelines 的更多信息,请参阅 SageMaker Pipelines

当您将数据流中的一个或多个步骤导出到 SageMaker Pipelines 时,Data Wrangler 会创建一个可用于定义、实例化、运行和管理管道的 Jupyter 笔记本。

使用 Jupyter 笔记本创建管道

使用以下过程创建 Jupyter 笔记本,将您的 Data Wrangler 流导出到 SageMaker Pipelines。

使用以下过程生成 Jupyter 笔记本并运行,将您的 Data Wrangler 流导出到 SageMaker Pipelines。

  1. 选择要导出的节点旁边的 +

  2. 选择导出目标

  3. 选择 SageMaker Pipelines(通过 Jupyter 笔记本)

  4. 运行 Jupyter 笔记本。

您可以使用 Data Wrangler 生成的 Jupyter 笔记本来定义管道。管道包括由 Data Wrangler 流定义的数据处理步骤。

通过将步骤添加到笔记本的以下代码中的 steps 列表,您可以向管道添加其他步骤:

pipeline = Pipeline( name=pipeline_name, parameters=[instance_type, instance_count], steps=[step_process], #Add more steps to this list to run in your Pipeline )

有关定义管道的更多信息,请参阅定义 SageMaker 管道

导出到推理端点

从 Data Wrangler 流创建 SageMaker 串行推理管道,在推理时使用 Data Wrangler 流处理数据。推理管道是一系列步骤,可用于生成对新数据进行预测的经过训练的模型。Data Wrangler 中的串行推理管道可转换原始数据,并将数据提供给机器学习模型进行预测。在 Studio 中,您可以通过 Jupyter 笔记本创建、运行和管理推理管道。有关访问笔记本的更多信息,请参阅使用 Jupyter 笔记本创建推理端点

在笔记本中,您可以训练机器学习模型,也可以指定已训练的模型。您可以通过 Amazon SageMaker Autopilot 或 XGBoost,使用已在 Data Wrangler 流中转换的数据来训练模型。

利用管道,您可以执行批量或实时推理。您还可以将 Data Wrangler 流添加到 SageMaker 模型注册表中。有关托管模型的更多信息,请参阅在一个端点后的一个容器中托管多个模型

重要

如果 Data Wrangler 流具有以下转换,则无法将该流导出到推理端点:

  • 联接

  • 串联

  • Group by (分组依据)

如果必须使用上述转换来准备您的数据,请使用以下过程。

使用不支持的转换为推理准备数据
  1. 创建 Data Wrangler 流。

  2. 应用前面的不受支持的转换。

  3. 将数据导出到 Amazon S3 存储桶。

  4. 创建单独的 Data Wrangler 流。

  5. 导入您在前面的流中导出的数据。

  6. 应用其余的转换。

  7. 使用我们提供的 Jupyter 笔记本创建串行推理管道。

有关将数据导出到 Amazon S3 存储桶的信息,请参阅导出到 Amazon S3。有关打开用于创建串行推理管道的 Jupyter 笔记本的信息,请参阅使用 Jupyter 笔记本创建推理端点

Data Wrangler 会忽略那些在推理时删除数据的转换。例如,如果您使用删除缺失项配置,Data Wrangler 会忽略处理缺失值转换。

如果您重新拟合整个数据集的转换,则转换会延续到您的推理管道。例如,如果使用了中位数来估算缺失值,则重新拟合转换所得的中位数将应用于您的推理请求。在使用 Jupyter 笔记本或将数据导出到推理管道时,可以重新拟合 Data Wrangler 流中的转换。有关重新拟合转换的信息,请参阅重新拟合整个数据集的转换并导出

串行推理管道支持以下数据类型的输入和输出字符串。每个数据类型都有一组要求。

支持的数据类型
  • text/csv – CSV 字符串的数据类型

    • 字符串不能具有标头。

    • 用于推理管道的特征必须与训练数据集内的特征顺序相同。

    • 特征之间必须有一个逗号分隔符。

    • 记录必须使用一个换行符分隔。

    下面是可在推理请求中提供的有效格式的 CSV 字符串示例。

    abc,0.0,"Doe, John",12345\ndef,1.1,"Doe, Jane",67890
  • application/json – JSON 字符串的数据类型

    • 数据集内用于推理管道的特征的顺序必须与训练数据集内的特征顺序相同。

    • 数据必须具有特定架构。可以将架构定义为具有一组 features 的单个 instances 对象。每个 features 对象都表示一个观测值。

    下面是可在推理请求中提供的有效格式的 JSON 字符串示例。

    { "instances": [ { "features": ["abc", 0.0, "Doe, John", 12345] }, { "features": ["def", 1.1, "Doe, Jane", 67890] } ] }

使用 Jupyter 笔记本创建推理端点

按照以下过程操作,导出您的 Data Wrangler 流以创建推理管道。

要使用 Jupyter 笔记本创建推理管道,请执行以下操作。

  1. 选择要导出的节点旁边的 +

  2. 选择导出目标

  3. 选择 SageMaker 推理管道(通过 Jupyter 笔记本)

  4. 运行 Jupyter 笔记本。

当您运行 Jupyter 笔记本时,会创建一个推理流构件。推理流构件是一个 Data Wrangler 流文件,其中包含用于创建串行推理管道的附加元数据。您正导出的节点包含来自前面节点的所有转换。

重要

Data Wrangler 需要推理流构件来运行推理管道。您不能将自己的流文件用作构件。您必须使用前面的步骤创建构件。

导出到 Python Code

要将数据流中的所有步骤导出到可手动集成到任何数据处理工作流的 Python 文件,请使用以下步骤。

使用以下过程生成 Jupyter 笔记本并运行,将您的 Data Wrangler 流导出到 Python Code。

  1. 选择要导出的节点旁边的 +

  2. 选择导出目标

  3. 选择 Python Code

  4. 运行 Jupyter 笔记本。

您可能需要配置 Python 脚本才能在管道中运行。例如,如果您运行的是 Spark 环境,请确保在有权访问 Amazon 资源的环境中运行脚本。

导出到 Amazon SageMaker Feature Store

可以使用 Data Wrangler 将您创建的特征导出到 Amazon SageMaker Feature Store。特征是数据集内的一列。Feature Store 是特征及其相关元数据的集中存储位置。您可以使用 Feature Store 创建、共享和管理用于机器学习 (ML) 开发的精选数据。集中式存储能够让您的数据更易于发现和重复使用。有关 Feature Store 的更多信息,请参阅 Amazon SageMaker Feature Store

Feature Store 中的一个核心概念是特征组。特征组是特征及其记录(观测值)和关联元数据的集合。它类似于数据库中的表。

可以使用 Data Wrangler 执行下列操作之一:

  • 使用新记录更新现有特征组。记录是数据集内的观测值。

  • 从您的 Data Wrangler 流中的节点创建新的特征组。Data Wrangler 会将数据集内的观测值作为记录添加到特征组中。

如果要更新现有特征组,则数据集的架构必须与该特征组的架构相匹配。特征组中的所有记录都将替换为数据集内的观测值。

可以通过 Jupyter 笔记本或目标节点,使用数据集内的观测值更新您的特征组。

如果您的特征组采用 Iceberg 表格式并且具有自定义的离线存储加密密钥,请务必向用于 Amazon SageMaker Processing 作业的 IAM 授予使用该密钥的权限。必须至少向其授予对正写入 Amazon S3 的数据进行加密的权限。要授予权限,请向 IAM 角色赋予使用 GenerateDataKey 的能力。有关授予 IAM 角色使用 Amazon KMS 密钥的权限的更多信息,请参阅 https://docs.amazonaws.cn/kms/latest/developerguide/key-policies.html

Destination Node

如果您要将已执行的一系列数据处理步骤输出到特征组,可以创建一个目标节点。在创建和运行目标节点时,Data Wrangler 会使用您的数据更新特征组。您还可以从目标节点 UI 创建新的特征组。创建目标节点后,您可以创建一个处理作业来输出数据。处理作业是指 Amazon SageMaker 处理作业。使用目标节点时,该作业会运行将已转换的数据输出到特征组所需的计算资源。

可以使用目标节点导出您在 Data Wrangler 流中进行的某些转换或所有转换。

通过以下过程创建目标节点,以使用数据集内的观测值更新特征组。

要使用目标节点更新特征组,请执行以下操作。

注意

可以在 Data Wrangler 流中选择创建作业,查看使用处理作业更新特征组的说明。

  1. 选择包含要导出的数据集的节点旁边的 + 号。

  2. 添加目标下,选择 SageMaker Feature Store

  3. 选择(双击)该特征组。Data Wrangler 会检查特征组的架构是否与您用于更新特征组的数据架构相匹配。

  4. (可选)对于同时具有在线存储和离线存储的特征组,选择仅导出到离线存储。此选项仅使用数据集内的观测值更新离线存储。

  5. 在 Data Wrangler 验证您的数据集架构后,选择添加

通过以下过程,使用数据集内的数据创建新的特征组。

可以通过以下方式之一存储特征组:

  • 在线 – 低延迟、高可用性缓存,用于可提供实时记录查找的特征组。使用在线存储可以快速访问特征组中的记录的最新值。

  • 离线 – 将特征组的数据存储在 Amazon S3 存储桶中。当您不需要低延迟(亚秒)读取时,可以离线存储数据。可以使用离线存储来存储在进行数据探究、模型训练和批处理推理时使用的功能。

  • 在线和离线 – 将您的数据存储于在线存储和离线存储中。

要使用目标节点创建特征组,请执行以下操作。

  1. 选择包含要导出的数据集的节点旁边的 + 号。

  2. 添加目标下,选择 SageMaker Feature Store

  3. 选择创建特征组

  4. 在以下对话框中,如果您的数据集没有事件时间列,请选择创建“EventTime”列

  5. 选择下一步

  6. 选择复制 JSON 架构。创建特征组时,会将架构粘贴到特征定义中。

  7. 选择创建

  8. 特征组名称中,为您的特征组指定名称。

  9. 描述(可选)中,指定描述以使您的特征组更便于搜索。

  10. 要为在线存储创建特征组,请执行以下操作。

    1. 选择启用在线存储

    2. 对于在线存储加密密钥,请指定 Amazon 托管式加密密钥或您自己的加密密钥。

  11. 要为离线存储创建特征组,请执行以下操作。

    1. 选择启用离线存储。为以下字段指定值:

      • S3 存储桶名称 – 存储特征组的 Amazon S3 存储桶的名称。

      • (可选)数据集目录名称 – 用于存储特征组的 Amazon S3 前缀。

      • IAM 角色 ARN – 有权访问 Feature Store 的 IAM 角色。

      • 表格格式 – 离线存储的表格格式。可以指定 GlueIcebergGlue 为默认格式。

      • 离线存储加密密钥 – 默认情况下,Feature Store 使用 Amazon Key Management Service 托管式密钥,不过您可以使用该字段来指定自己的密钥。

    2. 为以下字段指定值:

      • S3 存储桶名称 – 存储特征组的存储桶的名称。

      • (可选)数据集目录名称 – 用于存储特征组的 Amazon S3 前缀。

      • IAM 角色 ARN – 有权访问特征存放区的 IAM 角色。

      • 离线存储加密密钥 – 默认情况下,Feature Store 使用 Amazon 托管式密钥,不过您可以使用该字段来指定自己的密钥。

  12. 选择继续

  13. 选择 JSON

  14. 删除窗口中的占位符括号。

  15. 粘贴步骤 6 中的 JSON 文本。

  16. 选择 Continue(继续)。

  17. 对于记录标识符特征名称,选择数据集内对每个记录具有唯一标识符的列。

  18. 对于事件时间特征名称,选择包含时间戳值的列。

  19. 选择 Continue(继续)。

  20. (可选)添加标签,使您的特征组更容易搜索到。

  21. 选择 Continue(继续)。

  22. 选择创建特征组

  23. 导航回您的 Data Wrangler 流,然后选择特征组搜索栏旁边的刷新图标。

注意

如果您已经为流中的特征组创建了目标节点,则无法为同一特征组创建其他目标节点。如果要为同一个特征组创建另一个目标节点,则必须创建另一个流文件。

可以使用以下过程创建 Data Wrangler 作业。

数据流页面创建作业,然后选择要导出的目标节点。

  1. 选择创建作业。下图显示了在您选择创建作业后显示的窗格。

  2. 对于作业名称,指定导出作业的名称。

  3. 选择要导出的目标节点。

  4. (可选)对于输出 KMS 密钥,请指定 Amazon KMS 密钥的 ARN、ID 或别名。KMS 密钥是一种加密密钥。对于作业的输出数据,可以使用密钥进行加密。有关 Amazon KMS 密钥的更多信息,请参阅 Amazon Key Management Service

  5. 下图显示了配置作业页面,其中作业配置选项卡处于打开状态。

    
                                        作业配置部分位于配置作业页面的顶部附近。

    (可选)在已训练参数下,如果您已完成以下操作,请选择重新拟合

    • 已对数据集进行采样

    • 已应用了转换,即利用您的数据在数据集内创建新列

    有关重新拟合已对整个数据集所做的转换的更多信息,请参阅 重新拟合整个数据集的转换并导出

  6. 选择配置作业

  7. (可选)配置 Data Wrangler 作业。可以执行以下配置:

    • 作业配置

    • Spark 内存配置

    • 网络配置

    • 标签

    • 参数

    • 关联日程安排

  8. 选择运行

Jupyter notebook

通过以下步骤,将 Jupyter 笔记本导出到 Amazon SageMaker Feature Store。

使用以下过程生成 Jupyter 笔记本并运行,将您的 Data Wrangler 流导出到 Feature Store。

  1. 选择要导出的节点旁边的 +

  2. 选择导出目标

  3. 选择 Amazon SageMaker Feature Store(通过 Jupyter 笔记本)

  4. 运行 Jupyter 笔记本。

运行 Jupyter 笔记本会运行 Data Wrangler 作业。运行 Data Wrangler 作业会启动 SageMaker 处理作业。处理作业会将流提取到在线和离线特征存放区中。

重要

用于运行此笔记本的 IAM 角色必须附加以下 Amazon 托管式策略:AmazonSageMakerFullAccessAmazonSageMakerFeatureStoreAccess

创建特征组时,您只需要启用一个在线或离线特征存放区。您也可以同时启用这两个特征存放区。要禁用在线存储创建,请将 EnableOnlineStore 设置为 False

# Online Store Configuration online_store_config = { "EnableOnlineStore": False }

笔记本使用您导出的数据框的列名和类型来创建特征组架构,该架构用于创建特征组。特征组是在特征存放区中为描述记录而定义的一组特征。特征组定义了其中包含的架构和特征。特征组定义由特征列表、记录标识符特征名称、事件时间特征名称以及其在线存储和离线存储的配置组成。

特征组中的每个特征可以具有以下类型之一:字符串分数整数。如果导出的数据框中的某列不是这些类型之一,则默认为 String

以下是特征组架构的示例。

column_schema = [ { "name": "Height", "type": "long" }, { "name": "Input", "type": "string" }, { "name": "Output", "type": "string" }, { "name": "Sum", "type": "string" }, { "name": "Time", "type": "string" } ]

此外,您必须指定记录标识符名称和事件时间特征名称:

  • 记录标识符名称是特征的名称,其值可以唯一标识在特征存放区中定义的记录。在线存储中仅存储每个标识符值的最新记录。记录标识符特征名称必须是特征定义名称之一。

  • 事件时间特征名称是将记录的 EventTime 存储在特征组中的特征的名称。EventTime 是发生新事件的时间点,该事件对应于特征中记录的创建或更新。特征组中的所有记录都必须具有相应的 EventTime

笔记本使用这些配置来创建特征组,大规模处理您的数据,然后将处理后的数据提取到您的在线和离线特征存放区中。要了解更多信息,请参阅数据来源和摄取

笔记本使用这些配置来创建特征组,大规模处理您的数据,然后将处理后的数据提取到您的在线和离线特征存放区中。要了解更多信息,请参阅数据来源和摄取

重新拟合整个数据集的转换并导出

导入数据时,Data Wrangler 会使用数据样本来应用编码。默认情况下,Data Wrangler 使用前 50000 行作为样本,不过您可以导入整个数据集或使用不同的采样方法。有关更多信息,请参阅 导入

以下转换使用您的数据,在数据集内创建列:

如果您已使用采样来导入数据,则前面的转换仅使用样本中的数据来创建列。转换可能没有使用所有相关数据。例如,如果您使用对分类进行编码转换,则整个数据集内可能存在样本中不存在的类别。

您可以使用目标节点或 Jupyter 笔记本重新拟合整个数据集的转换。当 Data Wrangler 导出流中的转换时,会创建 SageMaker 处理作业。当处理作业完成后,Data Wrangler 会将以下文件保存到默认 Amazon S3 位置或您指定的 S3 位置:

  • Data Wrangler 流文件,用于指定要为数据集重新拟合的转换

  • 已应用了重新拟合转换的数据集

您可以在 Data Wrangler 中打开 Data Wrangler 流文件,然后将转换应用于不同的数据集。例如,如果您已将转换应用于训练数据集,则可以打开并使用 Data Wrangler 流文件将转换应用于用于推理的数据集。

有关使用目标节点重新拟合转换和导出的信息,请参阅以下页面:

使用以下步骤运行 Jupyter 笔记本来重新拟合转换并导出数据。

要运行 Jupyter 笔记本并重新拟合转换并导出 Data Wrangler 流,请执行以下操作。

  1. 选择要导出的节点旁边的 +

  2. 选择导出目标

  3. 选择要将数据导出到的位置。

  4. 对于 refit_trained_params 对象,将 refit 设置为 True

  5. 对于 output_flow 字段,指定带有重新拟合转换的输出流文件的名称。

  6. 运行 Jupyter 笔记本。

创建自动处理新数据的计划

如果您要定期处理数据,则可以创建一个计划来自动运行处理作业。例如,您可以创建一个计划,该计划在获得新数据时自动运行处理作业。有关处理作业的更多信息,请参阅 导出到 Amazon S3导出到 Amazon SageMaker Feature Store

创建作业时,必须指定有权创建该作业的 IAM 角色。默认情况下,您访问 Data Wrangler 所使用的 IAM 角色是 SageMakerExecutionRole

以下权限允许 Data Wrangler 访问 EventBridge 并允许 EventBridge 运行处理作业:

  • 将以下 Amazon 托管式策略添加到 Amazon SageMaker Studio 执行角色,该角色为 Data Wrangler 提供了使用 EventBridge 的权限:

    arn:aws:iam::aws:policy/AmazonEventBridgeFullAccess

    有关策略的更多信息,请参阅适用于 EventBridge 的 Amazon 托管式策略

  • 将以下策略添加到您在 Data Wrangler 中创建作业时指定的 IAM 角色:

    { "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Action": "sagemaker:StartPipelineExecution", "Resource": "arn:aws:sagemaker:Region:Amazon-account-id:pipeline/data-wrangler-*" } ] }

    如果您使用的是默认 IAM 角色,则可以将上述策略添加到 Amazon SageMaker Studio 执行角色。

    向该角色添加以下信任策略,以允许 EventBridge 代入该角色。

    { "Effect": "Allow", "Principal": { "Service": "events.amazonaws.com" }, "Action": "sts:AssumeRole" }
重要

在您创建计划时,Data Wrangler 会在 EventBridge 中创建 eventRule。您需要为创建的事件规则以及用于运行处理作业的实例都支付费用。

有关 EventBridge 定价的信息,请参阅 Amazon EventBridge 定价。有关处理作业定价的信息,请参阅 Amazon SageMaker 定价

使用以下方法之一设置计划:

  • Cron 表达式

    注意

    Data Wrangler 不支持以下表达式:

    • LW#

    • 天的缩写

    • 月份的缩写

  • Rate 表达式

  • 重复 – 设置每小时或每天运行作业的时间间隔。

  • 特定时间 – 设置运行作业的特定日期和时间。

以下各个部分提供了作业创建过程。

CRON

使用以下步骤创建带有 CRON 表达式的计划。

要使用 CRON 表达式指定计划,请执行以下操作。

  1. 打开您的 Data Wrangler 流。

  2. 选择创建作业

  3. (可选)对于输出 KMS 密钥,指定一个 Amazon KMS 密钥来配置作业的输出。

  4. 选择下一步,2. 配置作业

  5. 选择关联计划

  6. 选择创建新计划

  7. 对于计划名称,指定计划的名称。

  8. 对于运行频率,选择 CRON

  9. 指定有效的 CRON 表达式。

  10. 选择创建

  11. (可选)选择添加其他计划以按其他计划运行作业。

    注意

    您最多可以关联两个计划。这些计划是独立的,除非时间重叠,否则不会相互影响。

  12. 选择以下选项之一:

    • 计划并立即运行 – Data Wrangler 作业会立即运行,随后按计划运行。

    • 仅限计划 – Data Wrangler 作业仅按您指定的计划运行。

  13. 选择运行

RATE

使用以下步骤创建带有 RATE 表达式的计划。

要使用 RATE 表达式指定计划,请执行以下操作。

  1. 打开您的 Data Wrangler 流。

  2. 选择创建作业

  3. (可选)对于输出 KMS 密钥,指定一个 Amazon KMS 密钥来配置作业的输出。

  4. 选择下一步,2. 配置作业

  5. 选择关联计划

  6. 选择创建新计划

  7. 对于计划名称,指定计划的名称。

  8. 对于运行频率,选择 Rate

  9. 对于,指定一个整数。

  10. 对于匹配程序,选择以下项之一:

    • 分钟

    • 小时

  11. 选择创建

  12. (可选)选择添加其他计划以按其他计划运行作业。

    注意

    您最多可以关联两个计划。这些计划是独立的,除非时间重叠,否则不会相互影响。

  13. 选择以下选项之一:

    • 计划并立即运行 – Data Wrangler 作业会立即运行,随后按计划运行。

    • 仅限计划 – Data Wrangler 作业仅按您指定的计划运行。

  14. 选择运行

Recurring

通过以下步骤创建定期运行作业的计划。

要使用 CRON 表达式指定计划,请执行以下操作。

  1. 打开您的 Data Wrangler 流。

  2. 选择创建作业

  3. (可选)对于输出 KMS 密钥,指定一个 Amazon KMS 密钥来配置作业的输出。

  4. 选择下一步,2. 配置作业

  5. 选择关联计划

  6. 选择创建新计划

  7. 对于计划名称,指定计划的名称。

  8. 对于运行频率,确保默认选中重复

  9. 对于每 x 小时,指定作业在一天中运行的每小时频率。有效值为 123 范围的整数(含)。

  10. 对于日期,选择以下选项之一:

    • 每天

    • 周末

    • 工作日

    • 选择日期

    1. (可选)如果您选择了选择日期,请选择在一周中的哪几天运行作业。

    注意

    计划会每天重置。如果您计划每五小时运行一次作业,则作业将在一天中的以下时间运行:

    • 00:00

    • 05:00

    • 10:00

    • 15:00

    • 20:00

  11. 选择创建

  12. (可选)选择添加其他计划以按其他计划运行作业。

    注意

    您最多可以关联两个计划。这些计划是独立的,除非时间重叠,否则不会相互影响。

  13. 选择以下选项之一:

    • 计划并立即运行 – Data Wrangler 作业会立即运行,随后按计划运行。

    • 仅限计划 – Data Wrangler 作业仅按您指定的计划运行。

  14. 选择运行

Specific time

通过以下过程创建在特定时间运行作业的计划。

要使用 CRON 表达式指定计划,请执行以下操作。

  1. 打开您的 Data Wrangler 流。

  2. 选择创建作业

  3. (可选)对于输出 KMS 密钥,指定一个 Amazon KMS 密钥来配置作业的输出。

  4. 选择下一步,2. 配置作业

  5. 选择关联计划

  6. 选择创建新计划

  7. 对于计划名称,指定计划的名称。

  8. 选择创建

  9. (可选)选择添加其他计划以按其他计划运行作业。

    注意

    您最多可以关联两个计划。这些计划是独立的,除非时间重叠,否则不会相互影响。

  10. 选择以下选项之一:

    • 计划并立即运行 – Data Wrangler 作业会立即运行,随后按计划运行。

    • 仅限计划 – Data Wrangler 作业仅按您指定的计划运行。

  11. 选择运行

可以使用 Amazon SageMaker Studio 查看计划运行的作业。处理作业在 SageMaker Pipelines 中运行。每个处理作业都有各自的管道。作业作为管道中的一个处理步骤运行。您可以查看已在管道中创建的计划。有关查看管道的信息,请参阅 查看管道

通过以下过程查看您已计划的作业。

要查看您已计划的作业,请执行以下操作。

  1. 打开 Amazon SageMaker Studio。

  2. 打开 SageMaker Pipelines

  3. 查看用于您已创建的作业的管道。

    运行作业的管道使用作业名称作为前缀。例如,如果您创建了一个名为 housing-data-feature-enginnering 的作业,则管道的名称为 data-wrangler-housing-data-feature-engineering

  4. 选择包含您的作业的管道。

  5. 查看管道的状态。管道状态成功时表示已成功运行处理作业。

要停止运行处理作业,请执行以下操作:

要停止运行处理作业,请删除指定计划的事件规则。删除事件规则时,会使与该计划关联的所有作业停止运行。有关删除规则的信息,请参阅禁用或删除 Amazon EventBridge 规则

您还可以停止和删除与计划关联的管道。有关停止管道的信息,请参阅 StopPipelineExecution。有关删除管道的信息,请参阅 DeletePipeline