创建和使用 Amazon Glue DataBrew 项目 - Amazon Glue DataBrew
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

创建和使用 Amazon Glue DataBrew 项目

在 Amazon Glue DataBrew 中,项目是数据分析和转换工作的核心。

创建项目时,您可以将两个基本组件组合在一起:

DataBrew 控制台以高度交互的直观用户界面呈现您的项目。它鼓励您尝试数百种数据转换,这样便可以了解它们的工作方式,以及它们对您的数据会产生什么影响。

您在项目视图中看到的数据是您的数据集样本。由于数据集可能会非常大,有数千甚至数百万行,因此使用示例有助于确保 DataBrew 控制台在您以各种方式转换样本数据时保持快速响应。默认情况下,样本包含数据集中的前 500 行数据。您可以为样本大小选择不同的设置,以及选择哪些行。

在转换样本数据时,DataBrew 可帮助您构建和完善项目配方——您迄今为止已应用的一系列分步转换。您正在处理的配方会自动保存,因此您可以随时离开项目视图,稍后返回,然后从上次停下来的地方继续。

当配方准备好可供使用时,便可以发布它。发布配方使其可供 DataBrew 作业子系统使用,从而可以将配方应用于整个数据集,或者创建广泛的数据配置文件,让您了解数据的结构、内容和统计特征。

创建项目

使用以下过程创建项目。

创建项目
  1. 登录 Amazon Web Services 管理控制台并打开 DataBrew 控制台。

  2. 在导航窗格上,选择项目。然后,选择创建项目

  3. 输入项目的名称。然后,选择要附加到项目的配方:

    • 如果您是从头开始,请选择创建新配方。这样做会创建一个新的空配方并将其附加到您的项目。

    • 如果您之前发布过配方要用于此项目,请选择编辑现有配方。如果该配方当前已附加到另一个项目,或者已为其定义任何作业,则无法在新项目中使用它。选择浏览配方查看哪些配方可用。

    • 如果您有之前发布过的现有配方并想导入其步骤,请选择从配方导入步骤,然后执行以下操作:

      1. 选择浏览配方查看哪些配方可用。

      2. 选择要使用的已发布配方版本。一个配方可以有多个版本,具体取决于您在项目视图中工作时发布它的频率。

      3. 选择查看配方步骤以检查配方中的数据转换。

  4. 拥有配方后,在选择数据集窗格中选择要使用的数据集:

    • 我的数据集:选择您之前创建的数据集。有关更多信息,请参阅创建项目。

    • 样本文件:根据 Amazon 维护的样本数据创建新数据集。此样本数据是探索 DataBrew 能做什么的好方法,无需提供自己的数据。确保输入数据集的名称。

    • 新数据集:创建新数据集。有关更多信息,请参阅 创建项目。

  5. 要获得访问权限,请选择允许 DataBrew 从 Amazon S3 输入位置进行读取的 Amazon Identity and Access Management(IAM)角色。对于您的 Amazon 账户拥有的 S3 位置,您可以选择 AwsGlueDataBrewDataAccessRole 服务托管的角色。这样做让 DataBrew 可以访问您拥有的 S3 资源。

  6. 采样窗格上,您可以找到让 DataBrew 从您的数据集构建数据样本的选项。

    对于类型,选择 DataBrew 应如何从您的数据集获取行:

    • 使用前 n 行根据数据集中的前几行创建样本。

    • 使用随机行根据数据集中随机选择的行创建样本。

    • 选择要在样本中显示的行数:500、1000、2500 或自定义样本大小,最多 5000 行。样本大小较小让 DataBrew 能够更快地执行转换,从而节省开发配方的时间。样本大小越大,越能准确地反映底层源数据的构成。但是,项目会话初始化和交互式转换速度会较慢。

  7. (可选)选择标签将标签附加到您的数据集。

    标签是由一个用户定义的键和一个可选值组成的简单标识,便于按用途、所有者、环境或其他标准来管理、搜索和筛选 DataBrew 项目。

  8. 根据需要进行设置后,选择创建作业

DataBrew 会根据需要创建新数据集,根据需要创建新配方,构建数据样本,然后创建交互式项目会话。此过程可能需要数分钟完成。项目准备就绪后,您便可以开始使用数据样本了。