本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
数据库项目会话概述
在 Databrew 项目会话中,您可以在交互式工作区中工作。
左窗格显示数据的当前视图。右窗格显示了项目的转换方法,该方法当前为空。
在数据网格的右上角,有三个选项卡:GRID
、SCHEMA
, 和PROFILE
. 选择其中一个选项卡将在工作区中显示相应的视图;下面将介绍视图。
网格视图
网格视图是默认视图,其中示例以表格格式显示。使用以下步骤进行网格视图的简短演练。
执行网格视图的演练
-
首先查看整个空间:
-
向左和向右滚动以查看所有列。
-
向上和向下滚动以查看所有数据值。
-
使用工作区底部的缩放控件调整网格的放大倍率级别。
-
-
在右上角,查看示例中显示的列数以及示例中的当前行数。
要更改显示的列,请选择N 列链接(其中N是当前显示的列数)。选择需要的列,然后选择显示选定的列.
-
现在,您可以开始尝试 Databrew 转换了。尝试以下操作:
-
从转换工具栏中,选择选择格式、更改为大写形式.
-
适用于Sourts (源列中,选择包含字符数据的列。
-
保留其他设置的默认值。
-
要查看变换后的数据的外观,请选择预览更改. 然后,要将此转换添加到您的配方中,请选择Apply.
无论何时应用数据转换,Databrew 都会将其添加到配方的工作副本中。这将显示在工作区的右侧。
-
尝试以下操作:
-
从转换工具栏中,选择Create、基于函数.
-
适用于选择一个函数中,选择
SQUARE ROOT
. -
适用于Sourts (源列中,选择包含数字数据的列。
-
将其他设置保留为默认值。
-
选择预览更改以查看变换后的数据的外观。然后,要将此转换添加到您的配方中,请选择Apply.
-
-
折叠右上角的配方窗格,方法是选择RECIPE. 要展开处方窗格,请选择RECIPE。
发布配方的新版本
当您继续应用转换时,配方中的步骤数会增加。随时,您可以发布新版本的配方。发布配方使其在 Databrew 的其他地方可用。通过执行此操作,您可以运行配方作业来转换整个数据集,而不是仅转换项目数据样本。
发布配方还鼓励采用渐进、迭代的方法来开发配方:您可以随时发布配方的新版本,因此您可以在需要时回退到 “最后已知良好” 配方版本。
发布处方的新版本
在配方窗格中,选择发布. 为此版本的处方输入描述,然后选择发布.
架构视图
如果选择SCHEMA选项卡上,视图将发生变化,如以下屏幕截图所示。
在架构视图中,您可以查看有关每列中数据值的统计信息。
在最左侧的列中,旁边的Show /Hide中,选择任何数据列。这些区域有:列详细信息窗格将显示在右侧。此窗格显示列值的统计信息摘要。
可以通过输入新名称来重命名称列名称.
您可以通过拖放列重新排列顺序。
配置文件视图
如果选择配置文件选项卡上,您可以看到有关项目的详细体积信息。在执行此操作之前,请运行 Databrew 作业以创建配置文件。
执行配置文件视图的演练
-
选择创建作业,然后输入您的任务的名称。
-
适用于Job 输出中,选择CSV作为文件类型。
-
在您的Amazon帐户,您希望写入 Databrew 的作业输出:
-
如果您已有此 Amazon S3 存储桶和文件夹,请选择浏览并找到它们。请确保您具有写入权限。
-
如果您没有此 Amazon S3 存储桶和文件夹,请创建它们:
打开 Amazon S3 控制台:https://console.aws.amazon.com/s3/
。 -
如果没有 Amazon S3 存储桶,请选择创建存储桶. 适用于Bucket name中,为您的新存储桶输入唯一名称。选择 Create bucket(创建存储桶)。
-
从存储桶列表中,选择要使用的存储桶。
-
选择 Create folder。适用于文件夹名称中,输入
databrew-output
,然后选择Create Folder.
-
-
适用于访问权限中,选择允许 Databrew 写入您的 Amazon S3 输出位置的 IAM 角色。
对于由您的Amazon帐户,您可以选择
AwsGlueDataBrewDataAccessRole
服务管理角色。这样做可以让 Databrew 访问您拥有的 S3 资源。 -
将其他设置保留为默认值,然后选择创建和运行作业.
-
作业运行到完成后,工作区将显示数据配置文件的图形摘要。
这些区域有:Dataset profile概述选项卡显示数据特征的高级摘要,如以下屏幕截图所示。
这些区域有:列统计数据选项卡显示了数据值的逐列细分: