步骤 5:创建数据配置文件 - Amazon Glue DataBrew
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

步骤 5:创建数据配置文件

在处理项目时, DataBrew 会显示统计信息,例如样本中的行数和每列中唯一值的分布。这些统计数据以及更多统计数据代表了样本的概况

要请求数据配置文件,请创建并运行分析作业。

分析数据集
  1. 在导航窗格上,选择作业

  2. 在 “分析作业” 选项卡上,选择 “创建作业”。

  3. Job 名称中输入chess-data-profile

  4. 对于 Job 类型,选择 “创建个人资料作业”。

  5. Job 输入窗格上,执行以下操作:

    • 对于 “运行于”,选择 “数据集”。

    • 选择选择数据集以查看可用数据集列表,然后选择chess-games

  6. Job 输出设置窗格上,执行以下操作:

    • 对于文件类型,选择 JSON(JavaScript 对象表示法)。

    • 选择 S3 位置以查看可用 Amazon S3 存储桶的列表,然后选择要使用的存储桶。然后选择浏览。在文件夹列表中,选择databrew-output,然后选择选择

  7. 在 “访问权限” 窗格上,选择AwsGlueDataBrewDataAccessRole。这是一个服务关联角色,可代表您 DataBrew 访问 Amazon S3 存储桶。

  8. 选择创建并运行作业。 DataBrew 使用您的设置创建作业,然后运行该作业。

  9. Job 运行历史记录窗格上,等待任务状态从变RunningSucceeded

  10. 要查看个人资料,请选择查看个人资料

    将显示 “数据集” 窗口。花点时间浏览以下选项卡:

    • 数据集预览

    • 个人资料概述

    • 列统计数据

    • 数据沿袭