处理数据 - Amazon SageMaker
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 AWS 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

处理数据

要在 上分析数据和评估机器学习模型Amazon SageMaker,请使用 Amazon SageMaker处理。借助 处理,您可以在 SageMaker 上使用简化的托管体验来运行数据处理工作负载,例如功能工程、数据验证、模型评估和模型解释。您还可以在实验阶段以及在生产中部署代码之后使用 Amazon SageMaker处理 API 来评估性能。


            运行处理作业。

上图显示了 如何Amazon SageMaker启动处理作业。 Amazon SageMaker 获取您的脚本,从 Amazon Simple Storage Service (Amazon S3) 中复制您的数据,然后拉取处理容器。处理容器映像可以是Amazon SageMaker内置映像,也可以是您提供的自定义映像。处理 作业的基础基础设施完全由 管理Amazon SageMaker。集群资源预置在作业的持续时间内,并在作业完成时清理。处理 作业的输出存储在您指定的 Amazon S3 存储桶中。

注意

您的数据必须存储在 Amazon S3 存储桶中。

使用 Amazon SageMaker处理 示例笔记本

我们提供两个示例 Jupyter 笔记本,以展示如何执行数据预处理、模型评估或这两者。

有关演示如何运行 scikit-learn 脚本以使用适用于 SageMaker 的 处理 Python 开发工具包执行数据预处理以及模型训练和评估的示例笔记本,请参阅 scikit-learn 处理。此笔记本还展示如何使用您自己的自定义容器,通过 Python 库和其他特定依赖项来运行处理工作负载。

有关演示如何使用 Amazon SageMaker处理 通过 Spark 执行分布式数据预处理的示例笔记本,请参阅分布式处理 (Spark)。此笔记本还展示如何在预处理的数据集上使用 XGBoost 训练回归模型。

有关如何创建和访问可用于在 SageMaker 中运行这些示例的 Jupyter 笔记本实例的说明,请参阅使用 Amazon SageMaker 笔记本实例。创建笔记本实例并打开它后,选择 SageMaker Examples (示例) 选项卡以查看所有SageMaker示例的列表。要打开笔记本,请选择其 Use (使用) 选项卡,然后选择 Create copy (创建副本)

使用 CloudWatch Logs 和指标监控 Amazon SageMaker处理 作业

Amazon SageMaker处理 提供 Amazon CloudWatch Logs 和指标来监控处理作业。CloudWatch 提供 CPU、GPU、内存、GPU 内存、磁盘指标和事件日志记录。有关更多信息,请参阅 使用 Amazon SageMaker 监控 Amazon CloudWatch使用 Amazon SageMaker 记录事件 Amazon CloudWatch