导出数据 - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

导出数据

导出数据以将数据流中的转换应用于完整导入的数据集。您可以将数据流中的任何节点导出到以下位置:

  • SageMaker 画布数据集

  • Amazon S3

如果要在 Canvas 中训练模型,可以将经过转换后的完整数据集导出为 Canvas 数据集。如果您想在 C SageMaker anvas 外部的机器学习工作流程中使用转换后的数据,可以将数据集导出到 Amazon S3。

导出到画布数据集

使用以下步骤从数据流中的节点导出 SageMaker Canvas 数据集。

将流程中的节点导出为 SageMaker Canvas 数据集
  1. 导航到您的数据流。

  2. 选择要导出的节点旁边的省略号图标。

  3. 在快捷菜单中,将鼠标悬停在 “导出” 上,然后选择 “将数据导出到画布数据集”。

  4. 导出到画布数据集侧面板中,输入新数据集的数据集名称

  5. 如果您希望 C SageMaker anvas 处理并保存您的完整数据集,请选中 “处理整个数据集” 选项。关闭此选项可仅对数据流中正在使用的样本数据应用变换。

  6. 选择导出

现在,您应该可以转到 Canvas 应用程序的数据集页面并查看您的新数据集。

导出到 Amazon S3

将数据导出到 Amazon S3 时,您可以扩展以转换和处理任何大小的数据。如果应用程序的内存可以处理数据集的大小,Canvas 会自动在本地处理您的数据。如果您的数据集大小超过 5 GB 的本地内存容量,Canvas 会代表您启动远程作业,以配置额外的计算资源并更快地处理数据。默认情况下,Canvas 使用 Amazon EMR Serverless 来运行这些远程作业。但是,您可以手动将 Canvas 配置为使用EMR无服务器作业或具有自己设置的 SageMaker 处理作业。

注意

在运行 S EMR erverless 作业时,默认情况下,该作业会继承 Canvas 应用程序的IAM角色、KMS密钥设置和标签。

以下总结了 Canvas 中远程作业的选项:

  • EMR无服务器:这是 Canvas 用于远程作业的默认选项。EMRServerless 会自动配置和扩展计算资源来处理您的数据,这样您就不必担心为工作负载选择合适的计算资源了。有关EMR无服务器的更多信息,请参阅EMR无服务器用户指南

  • SageMaker 处理: SageMaker 处理作业提供更高级的选项,并可对用于处理数据的计算资源进行精细控制。例如,您可以指定计算实例的类型和数量,自行配置作业VPC并控制网络访问权限,自动处理任务等。有关自动处理作业的更多信息,请参阅创建计划以自动处理新数据。有关 SageMaker 处理作业的更多一般信息,请参阅带 SageMaker 处理功能的数据转换工作负载

导出到 Amazon S3 时支持以下文件类型:

  • CSV

  • Parquet

要开始使用,请查看以下先决条件。

EMR无服务器作业的先决条件

要创建使用 EMR Serverless 资源的远程作业,您必须拥有必要的权限。您可以通过 Amazon SageMaker 域名或用户个人资料设置授予权限,也可以手动配置用户的 Amazon IAM角色。有关如何授予用户执行大数据处理权限的说明,请参阅向用户授予在整个 ML 生命周期中使用大数据的权限

如果您不想配置这些策略,但仍需要通过 Data Wrangler 处理大型数据集,也可以使用 SageMaker 处理作业。

使用以下步骤将您的数据导出到 Amazon S3。要配置远程作业,请按照可选的高级步骤进行操作。

将流程中的节点导出到 Amazon S3
  1. 导航到您的数据流。

  2. 选择要导出的节点旁边的省略号图标。

  3. 在快捷菜单中,将鼠标悬停在 “导出” 上,然后选择 “将数据导出到 Amazon S3”。

  4. 导出到 Amazon S3 侧面板中,您可以更改新数据集的数据集名称

  5. 对于 S3 位置,输入要将数据集导出到的 Amazon S3 位置。您可以输入 S3 URI 位置或 ARN S3 接入点的 S3、别名或。有关访问点的更多信息,请参阅 Amazon S3 用户指南中的使用 Amazon S3 接入点管理数据访问权限

  6. (可选)在 “高级” 设置中,为以下字段指定值:

    1. 文件类型-导出数据的文件格式。

    2. 分隔符-用于分隔文件中值的分隔符。

    3. 压缩-用于减小文件大小的压缩方法。

    4. 分区数-Canvas 作为作业输出写入的数据集文件数。

    5. 选择列-您可以从数据中选择要包含在分区中的列子集。

  7. 如果您希望 Canvas 将数据流转换应用于整个数据集并导出结果,请选中 “处理整个数据集” 选项。如果取消选择此选项,Canvas 将仅对交互式 Data Wrangler 数据流中使用的数据集样本应用变换。

    注意

    如果您只导出数据样本,Canvas 会在应用程序中处理您的数据,而不会为您创建远程作业。

  8. 如果您希望 Canv as 自动确定是使用 Canvas 应用程序内存运行作业,还是使用 EMR Serverless 作业运行作业,请选中 “自动作业配置” 选项。如果您取消选择此选项并手动配置作业,则可以选择使用EMR无服务器或 SageMaker 处理作业。有关如何配置EMR无服务器或 SageMaker 处理作业的说明,请在导出数据之前参阅此过程之后的部分。

  9. 选择导出

以下过程说明在将完整数据集导出到 Amazon S3 时,如何手动配置EMR无服务器或 SageMaker 处理的远程任务设置。

EMR Serverless

要在导出到 Amazon S3 的同时配置EMR无服务器任务,请执行以下操作:

  1. 在 “导出到 Amazon S3” 侧面板中,关闭自动任务配置选项。

  2. 选择EMR无服务器

  3. 任务名称中,输入您的EMR无服务器作业的名称。名称可以包含字母、数字、连字符和下划线。

  4. 对于IAM角色,输入用户的IAM执行角色。此角色应具有运行EMR无服务器应用程序所需的权限。有关更多信息,请参阅 向用户授予在整个 ML 生命周期中使用大数据的权限

  5. (可选)对于KMS密钥,请指定密钥 ID 或ARN, Amazon KMS key 以加密作业日志。如果您不输入密钥,Canvas 将使用EMR无服务器的默认密钥。

  6. (可选)在监控配置中,输入要向其发布 CloudWatch 日志的 Amazon Logs 日志组的名称。

  7. (可选)对于标签,向由键值对组成的EMR无服务器作业添加元数据标签。这些标签可用于对工作进行分类和搜索。

  8. 选择 Export 以启动任务。

SageMaker Processing

要在导出到 Amazon S3 的同时配置 SageMaker 处理任务,请执行以下操作:

  1. 在 “导出到 Amazon S3” 侧面板中,关闭自动任务配置选项。

  2. 选择 “SageMaker 处理”。

  3. 任务名称中,输入 SageMaker处理任务的名称。

  4. 对于实例类型,选择要运行处理作业的计算实例的类型。

  5. 实例数中,指定要启动的计算实例的数量。

  6. 对于IAM角色,输入用户的IAM执行角色。此角色应具有代表您创建和运行处理任务所需的 SageMaker 权限。如果您将AmazonSageMakerFullAccess策略附加到您的IAM角色,则会授予这些权限。

  7. 对于卷大小,输入连接到每个处理实例的 ML 存储卷的存储大小(以 GB 为单位)。根据您的预期输入和输出数据大小选择大小。

  8. (可选)对于卷KMS密钥,请指定用于加密存储卷的KMS密钥。如果您未指定密钥,则使用默认的 Amazon EBS 加密密钥。

  9. (可选)对于KMS密钥,请指定KMS密钥来加密处理任务使用的输入和输出 Amazon S3 数据源。

  10. (可选)对于 Spark 内存配置,请执行以下操作:

    1. 输入处理作业协调和调度的 Spark 驱动程序节点的驱动程序内存(以 MB 为单位)。

    2. 为在作业中运行单个任务的 Spark 执行器节点输入执行器内存(以 MB 为单位)。

  11. (可选)要进行网络配置,请执行以下操作:

    1. 对于子网配置,请输入要在IDs其中启动处理实例的VPC子网。默认情况下,该作业使用您的默认设置VPC。

    2. 对于安全组配置,请输入用于控制入站和出站连接规则的安全组。IDs

    3. 启启用容器间流量加密选项,以在作业期间加密处理容器之间的网络通信。

  12. (可选)对于员工计划,您可以选择创建 Amazon EventBridge 计划,使处理任务按周期性间隔运行。选择 “创建新计划”,然后填写对话框。有关填写本节和按计划运行处理作业的更多信息,请参阅创建计划以自动处理新数据

  13. (可选)将标签添加为键值对,以便您可以对处理任务进行分类和搜索。

  14. 选择 “导出” 以启动处理作业。

导出数据后,您应该在指定的 Amazon S3 位置找到经过全面处理的数据集。