DataBrew 项目会议概述 - Amazon Glue DataBrew
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

DataBrew 项目会议概述

在 DataBrew 项目会话中,您在交互式工作区中工作。

DataBrew project interface showing dataset details, sample data, and options to build a recipe.

左侧窗格显示数据的当前视图。右侧窗格显示项目的转换配方(该配方当前为空)。

在数据网格的右上角,有三个选项卡:GRIDSCHEMAPROFILE。选择其中一个选项卡将在工作区中显示相应的视图;接下来将描述这些视图。

网格视图

网格视图是默认视图,在其中会以表格格式显示样本。使用以下过程简要介绍网格视图。

浏览网格视图
  1. 首先查看整个空间:

    1. 向左和向右滚动以查看所有列。

    2. 向上和向下滚动以查看所有数据值。

    3. 使用工作区底部的缩放控件调整网格的放大倍数。

  2. 在右上角,查看样本中显示的列数以及样本中的当前行数。

    要更改显示哪些列,请选择 N 列链接(其中 N 是当前显示的列数)。选择所需的列,然后选择显示选定列

  3. 现在,您可以开始试用 DataBrew 转换了。尝试以下操作:

    1. 在转换工具栏中,选择选择格式转换为大写

    2. 对于源列,选择包含字符数据的列。

    3. 保留其他设置的默认值。

    4. 要查看转换后的数据是什么样子,请选择预览更改。然后,要将此转换添加到您的配方,请选择应用

    每当应用数据转换时,DataBrew 都会将其添加到配方的工作副本中。它显示在工作区的右侧。

  4. 尝试以下操作:

    1. 在转换工具栏中,选择创建基于函数

    2. 选择函数中,选择 SQUARE ROOT

    3. 对于源列,选择包含数值数据的列。

    4. 保留其他设置的默认值。

    5. 选择预览更改以查看转换后的数据是什么样子。然后,要将此转换添加到您的配方,请选择应用

  5. 通过选择配方折叠右上角的配方窗格。要展开配方窗格,请再次选择配方

发布配方的新版本。

随着您继续应用转换,配方中的步骤数会增加。您可以随时发布配方的新版本。发布配方使其可在 DataBrew 中的其他地方使用。通过执行此操作,您可以运行配方作业来转换整个数据集,而不是仅转换项目数据样本。

发布配方也鼓励采用渐进、迭代的方法进行配方开发:可以随时发布配方的新版本,这样便可以根据需要回退到“上次已知的正确”配方版本。

发布配方的新版本
  • 在配方窗格中,选择发布。输入此版本配方的描述,然后选择发布

架构视图

如果选择架构选项卡,视图会发生变化,如以下屏幕截图所示。

Schema view showing 5 columns with data types, quality, and value distribution for baby names dataset.

在架构视图中,您可以查看有关每列中数据值的统计信息。

显示/隐藏旁的最左侧列中,选择任意数据列。列详细信息窗格将显示在右侧。此窗格将显示列值的统计信息摘要。

可通过在列名中输入新名称来重命名列。

可通过拖放列来重新排列列顺序。

配置文件视图

如果选择配置文件选项卡,则可以查看有关项目的详细体积信息。在此之前,请运行 DataBrew 作业创建配置文件。

浏览配置文件视图
  1. 选择创建作业,然后输入作业的名称。

  2. 对于作业输出,选择 CSV 作为文件类型。

  3. 在您的 Amazon 账户中查找或创建想写入 DataBrew 的作业输出的 Amazon S3 存储桶和文件夹:

    • 如果已有此 Amazon S3 存储桶和文件夹,请选择浏览并找到它们。确保您对这两者拥有写入权限。

    • 如果没有此 Amazon S3 存储桶和文件夹,请创建它们:

      1. 通过以下网址打开 Amazon S3 控制台:https://console.aws.amazon.com/s3/

      2. 如果没有 Amazon S3 存储桶,请选择创建存储桶。对于存储桶名称,请为新存储桶输入一个唯一名称。选择创建存储桶

      3. 从存储桶列表中,选择您想要使用的存储桶。

      4. 选择创建文件夹。对于文件夹名称,输入 databrew-output,然后选择创建文件夹

  4. 对于访问权限,选择允许 DataBrew 写入您的 Amazon S3 输出位置的 IAM 角色。

    对于您的 Amazon 账户拥有的 S3 位置,您可以选择 AwsGlueDataBrewDataAccessRole 服务托管的角色。这样做让 DataBrew 可以访问您拥有的 S3 资源。

  5. 将其他设置保留默认值,然后选择创建并运行作业

  6. 作业运行完成后,工作区将显示数据配置文件的图形摘要。

    数据剖析概览选项卡将显示数据特征的简要摘要,如以下屏幕截图所示。

    Data profile overview showing dataset summary, including row count, columns, and data types.

    列统计数据选项卡将显示数据值的逐列细分:

    Column statistics tab showing data profile overview, column types, and data quality metrics.