数据库项目会话概述 - Amazon Glue DataBrew
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

数据库项目会话概述

在 Databrew 项目会话中,您可以在交互式工作区中工作。

左窗格显示数据的当前视图。右窗格显示了项目的转换方法,该方法当前为空。

在数据网格的右上角,有三个选项卡:GRIDSCHEMA, 和PROFILE. 选择其中一个选项卡将在工作区中显示相应的视图;下面将介绍视图。

网格视图

网格视图是默认视图,其中示例以表格格式显示。使用以下步骤进行网格视图的简短演练。

执行网格视图的演练
  1. 首先查看整个空间:

    1. 向左和向右滚动以查看所有列。

    2. 向上和向下滚动以查看所有数据值。

    3. 使用工作区底部的缩放控件调整网格的放大倍率级别。

  2. 在右上角,查看示例中显示的列数以及示例中的当前行数。

    要更改显示的列,请选择N 列链接(其中N是当前显示的列数)。选择需要的列,然后选择显示选定的列.

  3. 现在,您可以开始尝试 Databrew 转换了。尝试以下操作:

    1. 从转换工具栏中,选择选择格式更改为大写形式.

    2. 适用于Sourts (源列中,选择包含字符数据的列。

    3. 保留其他设置的默认值。

    4. 要查看变换后的数据的外观,请选择预览更改. 然后,要将此转换添加到您的配方中,请选择Apply.

    无论何时应用数据转换,Databrew 都会将其添加到配方的工作副本中。这将显示在工作区的右侧。

  4. 尝试以下操作:

    1. 从转换工具栏中,选择Create基于函数.

    2. 适用于选择一个函数中,选择SQUARE ROOT.

    3. 适用于Sourts (源列中,选择包含数字数据的列。

    4. 将其他设置保留为默认值。

    5. 选择预览更改以查看变换后的数据的外观。然后,要将此转换添加到您的配方中,请选择Apply.

  5. 折叠右上角的配方窗格,方法是选择RECIPE. 要展开处方窗格,请选择RECIPE

发布配方的新版本

当您继续应用转换时,配方中的步骤数会增加。随时,您可以发布新版本的配方。发布配方使其在 Databrew 的其他地方可用。通过执行此操作,您可以运行配方作业来转换整个数据集,而不是仅转换项目数据样本。

发布配方还鼓励采用渐进、迭代的方法来开发配方:您可以随时发布配方的新版本,因此您可以在需要时回退到 “最后已知良好” 配方版本。

发布处方的新版本
  • 在配方窗格中,选择发布. 为此版本的处方输入描述,然后选择发布.

架构视图

如果选择SCHEMA选项卡上,视图将发生变化,如以下屏幕截图所示。

在架构视图中,您可以查看有关每列中数据值的统计信息。

在最左侧的列中,旁边的Show /Hide中,选择任何数据列。这些区域有:列详细信息窗格将显示在右侧。此窗格显示列值的统计信息摘要。

可以通过输入新名称来重命名称列名称.

您可以通过拖放列重新排列顺序。

配置文件视图

如果选择配置文件选项卡上,您可以看到有关项目的详细体积信息。在执行此操作之前,请运行 Databrew 作业以创建配置文件。

执行配置文件视图的演练
  1. 选择创建作业,然后输入您的任务的名称。

  2. 适用于Job 输出中,选择CSV作为文件类型。

  3. 在您的Amazon帐户,您希望写入 Databrew 的作业输出:

    • 如果您已有此 Amazon S3 存储桶和文件夹,请选择浏览并找到它们。请确保您具有写入权限。

    • 如果您没有此 Amazon S3 存储桶和文件夹,请创建它们:

      1. 打开 Amazon S3 控制台:https://console.aws.amazon.com/s3/

      2. 如果没有 Amazon S3 存储桶,请选择创建存储桶. 适用于Bucket name中,为您的新存储桶输入唯一名称。选择 Create bucket(创建存储桶)。

      3. 从存储桶列表中,选择要使用的存储桶。

      4. 选择 Create folder。适用于文件夹名称中,输入databrew-output,然后选择Create Folder.

  4. 适用于访问权限中,选择允许 Databrew 写入您的 Amazon S3 输出位置的 IAM 角色。

    对于由您的Amazon帐户,您可以选择AwsGlueDataBrewDataAccessRole服务管理角色。这样做可以让 Databrew 访问您拥有的 S3 资源。

  5. 将其他设置保留为默认值,然后选择创建和运行作业.

  6. 作业运行到完成后,工作区将显示数据配置文件的图形摘要。

    这些区域有:Dataset profile概述选项卡显示数据特征的高级摘要,如以下屏幕截图所示。

    这些区域有:列统计数据选项卡显示了数据值的逐列细分: