使用 SageMaker Processing 的数据转换工作负载 - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

使用 SageMaker Processing 的数据转换工作负载

SageMaker Processing 指的是 SageMaker 在 SageMaker 全面管理的基础设施上运行数据前后处理、特征工程和模型评测任务的能力。这些任务作为处理作业执行。下面提供了有关 SageMaker Processing 的信息和资源。

使用 SageMaker Processing API,数据科学家可以运行脚本和笔记本来处理、转换和分析数据集,为机器学习做好准备。当与 SageMaker 提供的其他关键机器学习任务(如训练和托管)结合使用时,Processing 具备完全托管的机器学习环境的诸多优势,其中包括 SageMaker 内置的所有安全性和合规性支持。您可以灵活使用内置的数据处理容器,或为自定义处理逻辑自带容器,然后提交作业,在 SageMaker 管理的基础设施上运行。

注意

您可以使用任何 SageMaker 支持的语言或使用 Amazon CLI,通过调用 CreateProcessingJob API 操作,以编程方式创建处理作业。有关此 API 操作如何转换为所选语言中函数的信息,另请参阅 CreateProcessingJob 部分并选择 SDK。以 Python 用户为例,请参阅 SageMaker Python SDK 的 Amazon SageMaker Processing 部分。或者,请参阅 Amazon SDK for Python (Boto3) 中的 create_processing_job 的完整请求语法。

下图显示了 Amazon SageMaker 如何启动处理作业。Amazon SageMaker 获取您的脚本,从 Amazon Simple Storage Service (Amazon S3) 复制数据,然后提取处理容器。处理作业的底层基础设施完全由 Amazon SageMaker 管理。在提交处理作业之后,SageMaker 将启动计算实例、处理和分析输入数据,并在完成后释放资源。处理作业的输出存储在您指定的 Amazon S3 存储桶中。

注意

输入数据必须存储在 Amazon S3 存储桶中。或者,您可以使用 Amazon Athena 或 Amazon Redshift 作为输入源。

运行处理作业。
提示

要了解机器学习 (ML) 训练和处理作业的分布式计算最佳实践,请参阅使用 SageMaker 进行分布式计算的最佳实践

使用 Amazon SageMaker Processing 示例笔记本

我们提供两个示例 Jupyter 笔记本,以展示如何执行数据预处理、模型评估或这两者。

有关演示如何运行 scikit-learn 脚本以使用 SageMaker Python SDK for Processing 执行数据预处理以及模型训练和评估的示例笔记本,请参阅 scikit-learn 处理。此笔记本还演示了如何使用您自己的自定义容器,通过 Python 库和其他特定依赖项来运行处理工作负载。

有关演示如何使用 Amazon SageMaker Processing 和 Spark 执行分布式数据预处理的示例笔记本,请参阅分布式处理 (Spark)。此笔记本还演示了如何在预处理数据集上使用 XGBoost 训练回归模型。

有关如何创建并访问可用于在 SageMaker 中运行这些示例的 Jupyter 笔记本实例的说明,请参阅 Amazon SageMaker 笔记本实例。创建笔记本实例并将其打开后,选择 SageMaker 示例选项卡以查看所有 SageMaker 示例的列表。要打开笔记本,请选择其使用选项卡,然后选择创建副本

使用 CloudWatch 日志和指标监控 Amazon SageMaker Processing 作业

Amazon SageMaker Processing 提供了 Amazon CloudWatch 日志和指标以监控处理作业。CloudWatch 可提供 CPU、GPU、内存、GPU 内存和磁盘指标以及事件日志记录。有关更多信息,请参阅使用 Amazon CloudWatch 监控 Amazon SageMaker 的指标Amazon SageMaker 发送到 Amazon CloudWatch Logs 的日志组和流