处理数据 - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 Amazon Web Services 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

处理数据

要在 Amazon SageMaker 上分析数据并评估机器学习模型,请使用 Amazon SageMaker Processing。借助 Processing,您可以在 SageMaker 上使用简化的托管体验来运行数据处理工作负载,例如功能工程、数据验证、模型评估和模型解释。您还可以在实验阶段以及在生产中部署代码之后使用 Amazon SageMaker Processing API 来评估性能。


            运行处理作业。

上图显示了 Amazon SageMaker 如何调整处理任务。Amazon SageMaker 将使用您的脚本,从 Amazon Simple Storage Service (Amazon S3) 复制您的数据,然后提取处理容器。处理容器图片可以是 Amazon SageMaker 内置映像,也可以是您提供的自定义图片。处理作业的底层基础设施完全由 Amazon SageMaker 管理。集群资源将在作业持续时间内置备,并在作业完成时进行清理。处理作业的输出存储在您指定的 Amazon S3 存储桶中。

注意

您的数据必须存储在 Amazon S3 存储桶中。

使用 Amazon SageMaker 处理示例笔记本

我们提供两个示例 Jupyter 笔记本,以展示如何执行数据预处理、模型评估或这两者。

有关演示如何运行 scikit-learn 脚本以使用适用于处理的 SageMaker Python 开发工具包执行数据预处理以及模型训练和评估的示例笔记本,请参阅scikit-learn 处理. 此笔记本还展示如何使用您自己的自定义容器,通过 Python 库和其他特定依赖项来运行处理工作负载。

有关演示如何使用 Amazon SageMaker Processing 通过 Spark 执行分布式数据预处理的示例笔记本,请参阅分布式处理(火花). 此笔记本还展示如何在预处理的数据集上使用 XGBoost 训练回归模型。

有关如何创建和访问可用于在 SageMaker 中运行这些示例的 Jupyter 笔记本实例的说明,请参阅使用 Amazon SageMaker 笔记本实例. 在您创建笔记本实例并打开该实例之后,选择SageMaker 示例选项卡以查看所有 SageMaker 示例的列表。要打开笔记本,请选择其 Use (使用) 选项卡,然后选择 Create copy (创建副本)

使用 CloudWatch Logs 和指标监控 Amazon SageMaker 处理作业

Amazon SageMaker 处理提供 Amazon CloudWatch 日志和指标来监控处理作业。CloudWatch 提供 CPU、GPU、内存、GPU 内存、磁盘指标和事件日志记录。有关更多信息,请参阅使用 Amazon CloudWatch 监控 Amazon SageMaker使用 Amazon CloudWatch 记录亚马逊 SageMaker 活动