处理数据 - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 Amazon Web Services 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

处理数据

要在 Amazon SageMaker 上分析数据并评估机器学习模型,请使用 Amazon SageMaker 处理。借助处理,您可以在 SageMaker 上使用简化的托管体验来运行数据处理工作负载,例如功能工程、数据验证、模型评估和模型解释。您还可以在实验阶段以及在生产中部署代码之后使用 Amazon SageMaker 处理 API 来评估性能。


            运行处理作业。

上图显示了 Amazon SageMaker 如何启动处理任务。Amazon SageMaker 将您的脚本从 Amazon Simple Storage Service (Amazon S3) 复制数据,然后提取处理容器。处理的容器映像可以是 Amazon SageMaker 内置映像,也可以是您提供的自定义映像。处理作业的底层基础设施完全由 Amazon SageMaker 管理。集群资源将在作业期间预配置,并在作业完成时进行清理。处理作业的输出存储在您指定的 Amazon S3 存储桶中。

注意

您的输入数据必须存储在 Amazon S3 存储桶中。或者,您也可以将 Amazon Athena 或 Amazon Redshift 作为输入源。

使用 Amazon SageMaker 处理示例笔记本

我们提供两个示例 Jupyter 笔记本,以展示如何执行数据预处理、模型评估或这两者。

有关演示如何运行 scikit-learn 脚本以使用适用于处理的 SageMaker Python 开发工具包执行数据预处理以及模型训练和评估的示例笔记本,请参阅。scikit-learn 处理. 此笔记本还展示如何使用您自己的自定义容器,通过 Python 库和其他特定依赖项来运行处理工作负载。

有关演示如何使用 Amazon SageMaker 处理通过 Spark 执行分布式数据预处理的示例笔记本,请参阅。分布式处理(Spark). 此笔记本还展示如何在预处理的数据集上使用 XGBoost 训练回归模型。

有关如何创建和访问可用于在 SageMaker 中运行这些示例的 Jupyter 笔记本实例的说明,请参阅。使用 Amazon SageMaker 笔记本实例. 创建笔记本实例并打开后,请选择SageMaker 示例选项卡以查看所有 SageMaker 示例的列表。要打开笔记本,请选择其 Use (使用) 选项卡,然后选择 Create copy (创建副本)

使用 CloudWatch Logs 和指标监控 Amazon SageMaker 处理作业

Amazon SageMaker 处理提供 Amazon CloudWatch 日志和指标来监控处理作业。CloudWatch 提供 CPU、GPU、内存、GPU 内存和磁盘指标以及事件日志记录。有关更多信息,请参阅 使用 Amazon CloudWatch 监控 Amazon SageMaker使用 Amazon CloudWatch 记录 Amazon SageMaker 事件