准备数据 - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

准备数据

机器学习中的数据准备是指收集、预处理和组织原始数据以使其适合分析和建模的过程。此步骤可确保数据采用机器学习算法可以有效学习的格式。数据准备任务可能包括处理缺失值、移除异常值、缩放特征、对类别变量进行编码、评估潜在偏差并采取措施缓解这些偏差、将数据拆分为训练和测试集、标记以及其他必要的转换,以优化数据的质量和可用性,以用于后续的机器学习任务。

Amazon SageMaker 提供了多种内置功能,用于在模型训练之前执行数据准备任务,例如清理、转换和标记数据集。

  • 对于低代码数据准备,您可以使用 Amazon SageMaker Data Wrangler 创建数据流,这些数据流定义您的机器学习数据预处理和功能工程工作流程,只需很少甚至根本不需要编码。从亚马逊 S3、Amazon Redshift 或 Snowflake 等来源导入数据来设计功能。您可以使用内置的可视化和分析从数据中获取见解。准备好数据后,您可以将完成的输出导出到 Amazon S3、Amazon Feature SageMaker Store 或 Pipel SageMaker ines。Data Wrangler 存在于 Amazon Can SageMaker vas 和 Amazon SageMaker Studio C 我们建议在 C SageMaker anvas 中使用它来获得最新功能。有关 Canvas 中的 Data Wrangler 的更多信息, SageMaker 请参阅。准备数据有关 Studio Classic 中的 Data Wrangler 的信息,请参阅。使用 Amazon Data Wrangler 准备机器学习 SageMaker 数据

  • 为了使用 Apache Spark、ApacheHive 或 Presto 等开源框架大规模准备数据,A mazon Studio Classic 提供了与 SageMaker 亚马逊 EMR 的内置集成。您可以使用 SageMaker Studio Classic 从笔记本电脑连接或预配置 Amazon EMR 集群,以进行 PB 级数据处理、交互式分析和机器学习。有关使用 SageMaker Studio Classic 中的 Amazon EMR 的更多信息,请参阅。使用 Amazon EMR 准备数据

    或者,您可以使用 Amazon Glue 交互式会话中基于 Apache Spark 的无服务器引擎,在 Studio Classic 中聚合、转换和准备来自多个来源的数据。 SageMaker有关在 SageMaker Studio Classic 中使用 Amazon Glue 交互式会话的更多信息,请参阅使用 Amazon Glue 交互式会话准备数据

  • 对于功能发现和存储,Amazon F SageMaker eature Store 能够搜索、发现和检索用于模型训练的功能,并提供了一个集中存储库,用于以标准格式存储特征数据。将精选功能存储在功能库中,可以将现有功能重复用于新的机器学习项目。Feature Store 管理功能的整个生命周期,包括跟踪沿袭、计算统计数据和维护审计跟踪。有关机器学习管道要素数据存储的更多信息,请参阅本指南中的创建、存储和共享功能部分。

  • 对于偏见检测,您可以使用 Amazon SageMaker Clarify 来分析您的数据并检测多个方面的潜在偏见。例如,您可以使用 Clari SageMaker fy 来检测您的训练数据是否包含不平衡的表示形式或群组之间的标签偏差,例如性别、种族或年龄。 SageMaker Clarify 可以帮助您在训练模型之前识别这些偏差,以避免将偏差传播到模型的预测中。有关使用 Clar SageMaker ify 发现偏见的信息,请参阅本指南中的检测训练前数据偏差部分。

  • 对于数据标注,您可以使用 G SageMaker round Truth 来管理训练数据集的数据标注工作流程。有关如何使用 Ground Truth 完成标注任务的信息,请参阅本指南中的使用标记数据 human-in-the-loop部分。

执行探索性数据分析并创建数据转换步骤后,您可以使用 SageMaker 处理任务生产转换代码,并使用 Amazon SageMaker 模型构建管道自动执行准备工作流程。

有关 SageMaker 处理 API 的信息,请参阅 Amazon SageMaker 处理任务

有关自动执行转换步骤的信息,请参阅SageMaker 模型构建管道