本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
导出数据
导出数据以将数据流中的转换应用于完整导入的数据集。您可以将数据流中的任何节点导出到以下位置:
-
SageMaker 画布数据集
-
Amazon S3
如果要在 Canvas 中训练模型,可以将经过转换后的完整数据集导出为 Canvas 数据集。如果您想在 C SageMaker anvas 外部的机器学习工作流程中使用转换后的数据,可以将数据集导出到 Amazon S3。
导出到画布数据集
使用以下步骤从数据流中的节点导出 SageMaker Canvas 数据集。
将流程中的节点导出为 SageMaker Canvas 数据集
-
导航到您的数据流。
-
选择要导出的节点旁边的省略号图标。
-
在快捷菜单中,将鼠标悬停在 “导出” 上,然后选择 “将数据导出到画布数据集”。
-
在导出到画布数据集侧面板中,输入新数据集的数据集名称。
-
如果您希望 C SageMaker anvas 处理并保存您的完整数据集,请选中 “处理整个数据集” 选项。关闭此选项可仅对数据流中正在使用的样本数据应用变换。
-
选择导出。
现在,您应该可以转到 Canvas 应用程序的数据集页面并查看您的新数据集。
导出到 Amazon S3
将数据导出到 Amazon S3 时,您可以扩展以转换和处理任何大小的数据。如果应用程序的内存可以处理数据集的大小,Canvas 会自动在本地处理您的数据。如果您的数据集大小超过 5 GB 的本地内存容量,Canvas 会代表您启动远程作业,以配置额外的计算资源并更快地处理数据。默认情况下,Canvas 使用 Amazon EMR Serverless 来运行这些远程作业。但是,您可以手动将 Canvas 配置为使用EMR无服务器作业或具有自己设置的 SageMaker 处理作业。
注意
在运行 S EMR erverless 作业时,默认情况下,该作业会继承 Canvas 应用程序的IAM角色、KMS密钥设置和标签。
以下总结了 Canvas 中远程作业的选项:
-
EMR无服务器:这是 Canvas 用于远程作业的默认选项。EMRServerless 会自动配置和扩展计算资源来处理您的数据,这样您就不必担心为工作负载选择合适的计算资源了。有关EMR无服务器的更多信息,请参阅EMR无服务器用户指南。
-
SageMaker 处理: SageMaker 处理作业提供更高级的选项,并可对用于处理数据的计算资源进行精细控制。例如,您可以指定计算实例的类型和数量,自行配置作业VPC并控制网络访问权限,自动处理任务等。有关自动处理作业的更多信息,请参阅创建计划以自动处理新数据。有关 SageMaker 处理作业的更多一般信息,请参阅带 SageMaker 处理功能的数据转换工作负载。
导出到 Amazon S3 时支持以下文件类型:
-
CSV
-
Parquet
要开始使用,请查看以下先决条件。
EMR无服务器作业的先决条件
要创建使用 EMR Serverless 资源的远程作业,您必须拥有必要的权限。您可以通过 Amazon SageMaker 域名或用户个人资料设置授予权限,也可以手动配置用户的 Amazon IAM角色。有关如何授予用户执行大数据处理权限的说明,请参阅向用户授予在整个 ML 生命周期中使用大数据的权限。
如果您不想配置这些策略,但仍需要通过 Data Wrangler 处理大型数据集,也可以使用 SageMaker 处理作业。
使用以下步骤将您的数据导出到 Amazon S3。要配置远程作业,请按照可选的高级步骤进行操作。
将流程中的节点导出到 Amazon S3
-
导航到您的数据流。
-
选择要导出的节点旁边的省略号图标。
-
在快捷菜单中,将鼠标悬停在 “导出” 上,然后选择 “将数据导出到 Amazon S3”。
-
在导出到 Amazon S3 侧面板中,您可以更改新数据集的数据集名称。
-
对于 S3 位置,输入要将数据集导出到的 Amazon S3 位置。您可以输入 S3 URI 位置或 ARN S3 接入点的 S3、别名或。有关访问点的更多信息,请参阅 Amazon S3 用户指南中的使用 Amazon S3 接入点管理数据访问权限。
-
(可选)在 “高级” 设置中,为以下字段指定值:
-
文件类型-导出数据的文件格式。
-
分隔符-用于分隔文件中值的分隔符。
-
压缩-用于减小文件大小的压缩方法。
-
分区数-Canvas 作为作业输出写入的数据集文件数。
-
选择列-您可以从数据中选择要包含在分区中的列子集。
-
-
如果您希望 Canvas 将数据流转换应用于整个数据集并导出结果,请选中 “处理整个数据集” 选项。如果取消选择此选项,Canvas 将仅对交互式 Data Wrangler 数据流中使用的数据集样本应用变换。
注意
如果您只导出数据样本,Canvas 会在应用程序中处理您的数据,而不会为您创建远程作业。
-
如果您希望 Canv as 自动确定是使用 Canvas 应用程序内存运行作业,还是使用 EMR Serverless 作业运行作业,请选中 “自动作业配置” 选项。如果您取消选择此选项并手动配置作业,则可以选择使用EMR无服务器或 SageMaker 处理作业。有关如何配置EMR无服务器或 SageMaker 处理作业的说明,请在导出数据之前参阅此过程之后的部分。
-
选择导出。
以下过程说明在将完整数据集导出到 Amazon S3 时,如何手动配置EMR无服务器或 SageMaker 处理的远程任务设置。
导出数据后,您应该在指定的 Amazon S3 位置找到经过全面处理的数据集。