准备和分析数据集 - Amazon SageMaker
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 AWS 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

准备和分析数据集

使用 导入、准备、转换、可视化和分析数据Amazon SageMaker Data Wrangler。您可以将 集成到机器学习工作流Data Wrangler中,以使用少量编码或完全无编码来简化和简化数据预处理和特征工程。您还可以添加自己的 Python 脚本和转换以自定义数据准备工作流程。

从 Amazon S3、Amazon Redshift、 和 中导入数据 使用 Amazon Athena 创建复杂的机器学习数据准备工作流程Data Wrangler,其中包括内置和自定义数据转换和分析,包括功能目标泄漏和快速建模。

定义数据准备工作流或数据流后,您可以将其与 SageMaker SageMaker Processing、Pipelines 和 SageMaker Feature Store 集成,从而简化处理、共享和存储 ML 训练数据的任务。您还可以将数据流导出到 python 脚本并创建自定义 ML 数据准备管道。

有关更多信息,请参阅使用 准备 ML 数据 Amazon SageMaker Data Wrangler