创建和使用 Amazon Glue DataBrew 项目
在 Amazon Glue DataBrew 中,项目是数据分析和转换工作的核心。
创建项目时,您可以将两个基本组件组合在一起:
-
数据集,用于提供对源数据的只读访问权限。有关更多信息,请参阅 使用 Amazon Glue DataBrew 连接到数据。
-
配方,用于将 DataBrew 数据转换应用于数据集。有关更多信息,请参阅 创建和使用 Amazon Glue DataBrew 配方。
DataBrew 控制台以高度交互的直观用户界面呈现您的项目。它鼓励您尝试数百种数据转换,这样便可以了解它们的工作方式,以及它们对您的数据会产生什么影响。
您在项目视图中看到的数据是您的数据集样本。由于数据集可能会非常大,有数千甚至数百万行,因此使用示例有助于确保 DataBrew 控制台在您以各种方式转换样本数据时保持快速响应。默认情况下,样本包含数据集中的前 500 行数据。您可以为样本大小选择不同的设置,以及选择哪些行。
在转换样本数据时,DataBrew 可帮助您构建和完善项目配方——您迄今为止已应用的一系列分步转换。您正在处理的配方会自动保存,因此您可以随时离开项目视图,稍后返回,然后从上次停下来的地方继续。
当配方准备好可供使用时,便可以发布它。发布配方使其可供 DataBrew 作业子系统使用,从而可以将配方应用于整个数据集,或者创建广泛的数据配置文件,让您了解数据的结构、内容和统计特征。
创建项目
使用以下过程创建项目。
创建项目
-
登录 Amazon Web Services 管理控制台并打开 DataBrew 控制台。
-
在导航窗格上,选择项目。然后,选择创建项目。
-
输入项目的名称。然后,选择要附加到项目的配方:
-
如果您是从头开始,请选择创建新配方。这样做会创建一个新的空配方并将其附加到您的项目。
-
如果您之前发布过配方要用于此项目,请选择编辑现有配方。如果该配方当前已附加到另一个项目,或者已为其定义任何作业,则无法在新项目中使用它。选择浏览配方查看哪些配方可用。
-
如果您有之前发布过的现有配方并想导入其步骤,请选择从配方导入步骤,然后执行以下操作:
-
选择浏览配方查看哪些配方可用。
-
选择要使用的已发布配方版本。一个配方可以有多个版本,具体取决于您在项目视图中工作时发布它的频率。
-
选择查看配方步骤以检查配方中的数据转换。
-
-
-
拥有配方后,在选择数据集窗格中选择要使用的数据集:
-
我的数据集:选择您之前创建的数据集。有关更多信息,请参阅创建项目。
-
样本文件:根据 Amazon 维护的样本数据创建新数据集。此样本数据是探索 DataBrew 能做什么的好方法,无需提供自己的数据。确保输入数据集的名称。
-
新数据集:创建新数据集。有关更多信息,请参阅 创建项目。
-
-
要获得访问权限,请选择允许 DataBrew 从 Amazon S3 输入位置进行读取的 Amazon Identity and Access Management(IAM)角色。对于您的 Amazon 账户拥有的 S3 位置,您可以选择
AwsGlueDataBrewDataAccessRole服务托管的角色。这样做让 DataBrew 可以访问您拥有的 S3 资源。 -
在采样窗格上,您可以找到让 DataBrew 从您的数据集构建数据样本的选项。
对于类型,选择 DataBrew 应如何从您的数据集获取行:
-
使用前 n 行根据数据集中的前几行创建样本。
-
使用随机行根据数据集中随机选择的行创建样本。
-
选择要在样本中显示的行数:500、1000、2500 或自定义样本大小,最多 5000 行。样本大小较小让 DataBrew 能够更快地执行转换,从而节省开发配方的时间。样本大小越大,越能准确地反映底层源数据的构成。但是,项目会话初始化和交互式转换速度会较慢。
-
-
(可选)选择标签将标签附加到您的数据集。
标签是由一个用户定义的键和一个可选值组成的简单标识,便于按用途、所有者、环境或其他标准来管理、搜索和筛选 DataBrew 项目。
-
根据需要进行设置后,选择创建作业。
DataBrew 会根据需要创建新数据集,根据需要创建新配方,构建数据样本,然后创建交互式项目会话。此过程可能需要数分钟完成。项目准备就绪后,您便可以开始使用数据样本了。