步骤 5:创建数据配置文件 - Amazon Glue DataBrew
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

步骤 5:创建数据配置文件

在处理项目时,DataBrew 会显示统计信息,例如样本中的行数和每列中唯一值的分配。这些统计信息以及更多信息表示样本的配置文件

要请求数据配置文件,请创建并运行剖析作业。

剖析数据集
  1. 在导航窗格上,选择作业

  2. 剖析作业选项卡上,选择创建作业

  3. 对于作业名称,输入 chess-data-profile

  4. 对于作业类型,选择创建一个剖析作业

  5. 作业输入窗格上,执行以下操作:

    • 对于运行于,选择数据集

    • 选择选择数据集以查看可用数据集列表,然后选择 chess-games

  6. 作业输出设置窗格上,执行以下操作:

    • 对于文件类型,选择 JSON(JavaScript 对象表示法)。

    • 选择 S3 位置以查看可用 Amazon S3 存储桶列表,然后选择要使用的存储桶。然后选择浏览。在文件夹列表中,选择 databrew-output,然后选择选择

  7. 访问权限窗格上,选择 AwsGlueDataBrewDataAccessRole。这是一个服务相关角色,让 DataBrew 可以代表您访问 Amazon S3 存储桶。

  8. 选择创建并运行作业。DataBrew 将使用您的设置创建一个作业,然后运行它。

  9. 作业运行历史记录窗格上,等待作业状态从 Running 更改为 Succeeded

  10. 要查看配置文件,请选择查看配置文件

    Icon of a person silhouette with "VIEW PROFILE" text underneath.

    此时将显示数据集窗口。请花点时间探索以下选项卡:

    • 数据集预览

    • 配置文件概述

    • 列统计数据

    • 数据血统统计信息