使用处理作业来运行数据转换工作负载 - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

使用处理作业来运行数据转换工作负载

SageMaker 处理 SageMaker是指在完全托管的基础架构上 SageMaker运行数据预处理和后处理、特征工程和模型评估任务的能力。这些任务作为处理任务执行。使用 P SageMaker rocessing API,数据科学家可以运行脚本和笔记本来处理、转换和分析数据集,为机器学习做好准备。与提供的 SageMaker其他关键机器学习任务(例如培训和托管)结合使用时,Processing 可为您提供完全托管的机器学习环境的优势,包括内置的所有安全性和合规性支持 SageMaker。您可以灵活地使用内置的数据处理容器,也可以使用自己的容器进行自定义处理逻辑,然后提交作业以在 SageMaker 托管基础设施上运行。

注意

您可以通过使用支持的任何语言调用 Jo CreateProcessingb API 操作 SageMaker 或使用来以编程方式创建处理作业。 Amazon CLI有关此 API 操作如何转换为您所选语言的函数的信息,请参阅的 “另请参阅” 部分 CreateProcessingJob 并选择 SDK。例如,对于 Python 用户,请参阅 Pyt SageMaker hon 软件开发工具包的亚马逊 SageMaker 处理部分。或者,请参阅 create_processing_job 的完整请求语法。 Amazon SDK for Python (Boto3)

下图显示了 Amaz SageMaker on 如何启动处理任务。亚马逊 SageMaker 获取您的脚本,从亚马逊简单存储服务 (Amazon S3) Simple Storage S3复制您的数据,然后提取处理容器。处理任务的底层基础设施完全由 Amazon 管理 SageMaker。提交处理任务后, SageMaker 启动计算实例,处理和分析输入数据,并在完成后释放资源。处理作业的输出存储在您指定的 Amazon S3 存储桶中。

注意

输入数据必须存储在 Amazon S3 存储桶中。或者,您可以使用 Amazon Athena 或 Amazon Redshift 作为输入源。

运行处理作业。
提示

要了解机器学习 (ML) 训练和处理作业的分布式计算最佳实践,请参阅采用 SageMaker 最佳实践的分布式计算

使用 Amazon SageMaker 处理样本笔记本

我们提供两个示例 Jupyter 笔记本,以展示如何执行数据预处理、模型评估或这两者。

有关演示如何运行 scikit-learn 脚本以使用 Pyth SageMaker on SDK 进行数据预处理以及模型训练和评估的示例笔记本,请参阅 scikit-learn 处理。此笔记本还演示了如何使用您自己的自定义容器,通过 Python 库和其他特定依赖项来运行处理工作负载。

有关演示如何使用 Amazon Processing SageMaker 通过 Spark 执行分布式数据预处理的示例笔记本,请参阅分布式处理 (Spark)。此笔记本还演示了如何在预处理数据集上使用 XGBoost 训练回归模型。

有关如何创建和访问可用于在中运行这些示例的 Jupyter 笔记本实例的说明 SageMaker,请参阅。Amazon SageMaker 笔记本实例创建并打开笔记本实例后,选择 “SageMaker 示例” 选项卡以查看所有 SageMaker 示例的列表。要打开笔记本,请选择其使用选项卡,然后选择创建副本

使用 CloudWatch 日志和指标监控 Amazon SageMaker 处理任务

Amazon SageMaker Processing 提供亚马逊 CloudWatch 日志和指标来监控处理任务。 CloudWatch 提供 CPU、GPU、内存、GPU 内存和磁盘指标以及事件记录。有关更多信息,请参阅 SageMaker 使用亚马逊监控亚马逊 CloudWatch使用亚马逊记录亚马逊 SageMaker 活动 CloudWatch