准备数据 - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

准备数据

您可以使用 Amazon SageMaker Data Wrangler 导入、准备、转换、可视化和分析数据。您可以将 Data Wrangler 集成到机器学习工作流中,以简化数据预处理和特征工程,只需少量甚至不需要编写代码。您还可以添加自己的 Python 脚本和转换来自定义数据准备工作流。

从 Amazon S3、Amazon Redshift 和 Amazon Athena 导入数据,并使用 Data Wrangler 创建复杂的机器学习数据准备工作流,其中包括内置和自定义的数据转换和分析,包括特征目标泄露和快速建模。

定义数据准备工作流(或称数据流)之后,您可以将工作流与 SageMaker Processing、SageMaker Pipelines 和 SageMaker Feature Store 集成,从而简化处理、共享和存储 ML 训练数据的任务。您还可以将数据流导出到 python 脚本并创建自定义 ML 数据准备管道。

有关更多信息,请参阅 使用 Amazon SageMaker Data Wrangler 准备机器学习数据

为了大规模快速准备数据,Amazon SageMaker Studio 提供了与 Amazon EMR 的内置集成。您可以使用 SageMaker Studio 通过笔记本接口连接、预置或管理 Amazon EMR 集群,以进行 PB 级数据处理、交互式分析和机器学习。Amazon EMR 使用开源框架,例如 Apache SparkApache HivePresto。有关在 SageMaker Studio 中使用 Amazon EMR 的更多信息,请参阅 使用 Amazon EMR 准备数据

或者,您可以使用 Amazon Glue 交互式会话中基于 Apache Spark 的无服务器引擎,来聚合和转换来自多个来源的数据。您可以聚合和转换来自分析和 ETL(提取、转换和加载)管道的数据,而无需管理基础设施。有关在 SageMaker Studio 中使用 Amazon Glue 交互式会话的更多信息,请参阅 使用 Amazon Glue 交互式会话准备数据

您用来训练机器学习模型的数据可能包含偏见。偏见可能会导致机器学习模型歧视某些个人或群体。您可以使用 Amazon SageMaker Clarify 来确定您用于训练模型的数据或生成的模型中是否包含任何偏见。SageMaker Clarify 还可以通过部分依赖图、特征重要性等,协助您解释使用表格、图像或 NLP 数据创建的模型。有关 SageMaker Clarify 的更多信息,请参阅 检测训练前数据偏差