DataBrew 项目会议概述 - Amazon Glue DataBrew
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

DataBrew 项目会议概述

在 DataBrew 项目会话中,您在交互式工作区中工作。

左侧窗格显示数据的当前视图。右侧窗格显示项目的转换配方,该配方当前为空。

在数据网格的右上角,有三个选项卡:GRIDSCHEMA、和。PROFILE选择其中一个选项卡将在工作区中显示相应的视图;接下来将介绍这些视图。

网格视图

网格视图是默认视图,其中样本以表格格式显示。使用以下步骤简要介绍网格视图。

浏览网格视图
  1. 首先查看整个空间:

    1. 向左和向右滚动以查看所有列。

    2. 向上和向下滚动以查看所有数据值。

    3. 使用工作区底部的缩放控件来调整网格的放大率。

  2. 在右上角,查看样本中显示了多少列以及样本中当前的行数。

    要更改显示的列,请选择 N 列链接(其中 N 是当前显示的列数)。选择所需的列,然后选择 “显示所选列”。

  3. 现在,您可以开始尝试 DataBrew 变换。尝试以下操作:

    1. 在转换工具栏中,选择选择格式更改为大写

    2. 在 “源列” 中,选择包含字符数据的列。

    3. 保留其他设置的默认值。

    4. 要查看转换后的数据会是什么样子,请选择 “预览更改”。然后,要将此转换添加到您的食谱中,请选择 “应用”。

    无论何时应用数据转换,都要将其 DataBrew 添加到配方的工作副本中。它显示在工作区的右侧。

  4. 尝试以下操作:

    1. 在转换工具栏中,选择创建基于函数

    2. 在 “选择函数” 中,选择SQUARE ROOT

    3. 源列中,选择包含数值数据的列。

    4. 将其他设置保留默认值。

    5. 选择 “预览更改” 以查看转换后的数据是什么样子。然后,要将此转换添加到您的食谱中,请选择 “应用”。

  5. 选择 “食谱”,折叠右上角的食谱窗格。要展开食谱窗格,请再次选择 “食谱”。

发布配方的新版本

随着您继续应用变换,配方中的步骤数会增加。您可以随时发布新版本的配方。发布食谱可在其他地方使用 DataBrew。通过执行此操作,您可以运行配方作业来转换整个数据集,而不是仅转换项目数据样本。

发布食谱还鼓励采用渐进、迭代的方法来开发食谱:你可以随时发布食谱的新版本,这样你就可以根据需要回退到 “最后一个已知的好食谱” 版本。

发布配方的新版本
  • 在配方窗格中,选择 “发布”。输入此版本食谱的描述,然后选择 “发布”。

架构视图

如果选择 “架构” 选项卡,视图会发生变化,如以下屏幕截图所示。

在架构视图中,您可以查看有关每列中数据值的统计信息。

在最左侧列的 “显示/隐藏” 旁边,选择任意数据列。列详细信息窗格出现在右侧。此窗格显示列值的统计摘要。

您可以通过为 Column name (列名称) 输入新名称来重命名列

您可以通过拖放列来重新排列列顺序。

个人资料视图

如果选择 “配置文件” 选项卡,则可以查看有关项目的详细体积信息。在执行此操作之前,您需要运行 DataBrew 任务来创建配置文件。

浏览个人资料视图
  1. 选择创建作业,然后输入作业的名称。

  2. 对于 Job 输出,为文件类型选择 CSV

  3. 在您的 Amazon 账户中找到或创建您想要写入任务输出的 Amazon S3 存储桶和文件夹: DataBrew

    • 如果您已有此 Amazon S3 存储桶和文件夹,请选择 “浏览” 并找到它们。请确保您对两者都具有写入权限。

    • 如果您没有此 Amazon S3 存储桶和文件夹,请创建它们:

      1. 打开 Amazon S3 控制台,网址为:https://console.aws.amazon.com/s3/

      2. 如果您没有 Amazon S3 存储桶,请选择创建存储桶。在存储桶名称中,输入新存储桶的唯一名称。选择创建存储桶

      3. 从存储桶列表中,选择要使用的存储桶。

      4. 请选择 Create folder(创建文件夹)。在 “文件夹名称” 中databrew-output,输入并选择 “创建文件夹”

  4. DataBrew 要获得访问权限,请选择允许写入您的 Amazon S3 输出位置的 IAM 角色。

    对于您的 Amazon 账户拥有的 S3 地点,您可以选择AwsGlueDataBrewDataAccessRole服务托管角色。这样做可以 DataBrew 访问您拥有的 S3 资源。

  5. 将其他设置保留默认值,然后选择创建并运行作业

  6. 作业运行完成后,工作区将显示数据配置文件的图形摘要。

    数据配置文件概述选项卡显示了数据特征的高级摘要,如以下屏幕截图所示。

    列统计” 选项卡显示了数据值的 column-by-column 细分: