Data Wrangler 中的数据处理是如何工作的 - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

Data Wrangler 中的数据处理是如何工作的

在 Amazon Data Wrangler SageMaker 数据流中以交互方式处理数据时,Amazon SageMaker Canvas 仅将转换应用于示例数据集供您预览。在 SageMaker Canvas 中完成数据流后,您可以处理所有数据并将其保存在适合您的机器学习工作流程的位置。

在 Data Wrangler 中完成数据转换后,有多种方法可供选择:

  • 创建模型。您可以创建 Canvas 模型,然后直接开始使用准备好的数据创建模型。您可以在处理完整个数据集之后创建模型,也可以仅导出您在 Data Wrangler 中使用的样本数据来创建模型。Canvas 将处理后的数据(整个数据集或样本数据)保存为 Canvas 数据集。

    我们建议您使用样本数据进行快速迭代,但要训练最终模型时,请使用全部数据。构建表格模型时,大于 5 GB 的数据集会自动缩减采样至 5 GB;对于时间序列预测模型,大于 30 GB 的数据集会缩减采样至 30 GB。

    要了解有关创建模型的更多信息,请参阅自定义模型的工作原理

  • 导出数据。您可以导出数据以用于机器学习工作流程。当您选择导出数据时,您有以下几种选择:

    • 您可以在 Canvas 应用程序中将数据保存为数据集。有关 Canvas 数据集支持的文件类型以及将数据导入 Canvas 时的其他要求的更多信息,请参阅创建数据集

    • 您可以将数据保存到 Amazon S3。根据画布内存的可用性,您的数据将在应用程序中处理,然后导出到 Amazon S3。如果您的数据集大小超过 Canvas 可以处理的范围,则默认情况下,Canvas 会使用EMR无服务器任务扩展到多个计算实例,处理您的完整数据集,然后将其导出到 Amazon S3。您也可以手动配置 Processing 作业,以便更精细地控制用于 SageMaker 处理数据的计算资源。

  • 导出数据流。您可能需要保存数据流的代码,以便可以在 Canvas 之外修改或运行转换。Canvas 为您提供了将数据流转换作为 Python 代码保存在 Jupyter 笔记本中的选项,然后您可以将其导出到 Amazon S3,以便在机器学习工作流程的其他地方使用。

当您从数据流中导出数据并将其保存为 Canvas 数据集或 Amazon S3 时,Canvas 会在您的数据流中创建一个新的目标节点,该节点是显示已处理数据的存储位置的最后一个节点。如果您想执行多个导出操作,则可以在流程中添加其他目标节点。例如,您可以从数据流的不同点导出数据以仅应用部分转换,也可以将转换后的数据导出到不同的 Amazon S3 位置。有关如何添加或编辑目标节点的更多信息,请参阅添加目标节点编辑目标节点

有关在 Amazon 上设置计划 EventBridge 以按计划自动处理和导出数据的更多信息,请参阅创建计划以自动处理新数据