准备数据 - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

准备数据

注意

以前,Amazon SageMaker Data Wrangler 是 SageMaker Studio Classic 体验的一部分。现在,如果您更新为使用全新 Studio 体验,则必须使用 SageMaker Canvas 来访问 Data Wrangler 并接收最新的功能更新。如果您之前一直在 Studio Classic 中使用 Data Wrangler,并且想在 Canvas 中迁移到 Data Wrangler,则可能需要授予其他权限才能创建和使用 Canvas 应用程序。有关更多信息,请参阅 从 Studio 经典版中的数据牧马人迁移到 Canvas SageMaker

在 Amazon Canvas 中使用 Amazon SageMaker Data Wr SageMaker angler 来准备、展示和分析您的数据。您可以将 Data Wrangler 数据准备流集成到机器学习 (ML) 工作流中,以简化和精简数据预处理和特征工程,只需少量甚至无需编码。您还可以添加自己的 Python 脚本和转换,以自定义工作流。

  • 数据流 – 创建数据流以定义一系列机器学习数据准备步骤。您可以使用流合并来自不同数据源的数据集,确定要应用于数据集的转换数量和类型,并定义可集成到机器学习管线中的数据准备工作流。

  • 转换 – 使用标准转换(如字符串、矢量和数字数据格式化工具)清理和转换数据集。使用转换(如文本和日期/时间嵌入以及分类编码)特征化数据。

  • 生成数据见解 — 使用 Data Wrangler 数据质量和见解报告自动验证数据质量并检测数据中的异常。

  • 分析 – 在流中的任意点分析数据集中的特征。Data Wrangler 包括内置的数据可视化工具,如散点图和直方图,以及目标泄漏分析和快速建模等数据分析工具,以了解特征相关性。

  • 导出 – 将数据准备工作流导出至其他位置。以下是一些示例位置:

    • Amazon Simple Storage Service (Amazon S3)桶

    • Amazon F SageMaker eature Store — 将功能及其数据存储在中央存储中。

  • 自动准备数据-根据您的数据流创建机器学习工作流程。

    • Amazon SageMaker 模型构建管道 — 构建用于管理 SageMaker 数据准备、模型训练和模型部署任务的工作流程。

    • 串行推理管道-根据您的数据流创建串行推理管道。用它来预测新数据。

    • Python 脚本 – 将数据及其转换存储在 Python 脚本中,用于您的自定义工作流。