创建和使用Amazon Glue DataBrew项目 - Amazon Glue DataBrew
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

创建和使用Amazon Glue DataBrew项目

InAmazon Glue DataBrew,aproject是数据分析和转换工作的核心。

在创建项目时,您将两个基本组件集中在一起:

Databrew 控制台以高度交互、直观的用户界面呈现您的项目。它鼓励您尝试数百个数据转换,以便您了解它们的工作原理以及它们对数据的影响。

您在工程视图中看到的数据是数据集的示例。由于数据集可能非常大,包含数千行甚至数百万行,因此使用示例有助于确保 Databrew 控制台在以各种方式转换示例数据时保持响应。默认情况下,样本包含数据集中的前 500 行数据。您可以为样本数量选择不同的设置,以及选择哪些行。

在转换示例数据时,Databrew 可帮助您构建和优化项目配置,这是迄今为止您应用的一系列转换。在制品配方将自动保存,因此您可随时离开项目视图、稍后返回并在停止处恢复操作。

当您的配方准备好使用时,您可以发布它。通过发布配方,Databrew 作业子系统可以使用该配方,您可以在该子系统中将配方应用于整个数据集,或创建丰富的数据配置文件,以便您了解数据的结构、内容和统计特征。

创建项目

要创建项目,请按照以下过程操作。

创建项目
  1. 登录到Amazon Web Services Management Console并打开数据库控制台。

  2. 在导航窗格中,选择项目. 然后选择 。创建项目.

  3. 输入项目的名称。然后选择要附加到项目的配方:

    • 选择创建新配方如果您是从头开始。这样做会创建一个新的空配方,并将其附加到您的项目中。

    • 选择编辑现有配方如果您有一个以前发布的配方,您希望用于此项目。如果配方当前附加到另一个项目,或者为其定义了任何作业,则无法在新项目中使用它。选择浏览配方查看可用的配方。

    • 选择从配方导入步骤如果您有以前已发布的现有配方并希望导入其步骤,然后执行以下操作:

      1. 选择浏览配方查看可用的配方。

      2. 选择要使用的处方的已发布版本。一个配方可以有多个版本,具体取决于您在项目视图中工作时发布它的频率。

      3. 选择查看处方步骤来检查配方中的数据转换。

  4. 在获得配方之后,选择要在选择一个数据集窗格:

    • 我的数据集— 选择您之前创建的数据集。有关更多信息,请参阅 创建项目。)

    • 示例文件— 基于由Amazon. 此示例数据是探索 Databrew 可以做些什么的好方法,而无需提供自己的数据。请确保为您的数据集输入名称。

    • 新建数据集— 创建新数据集。有关更多信息,请参阅创建项目。

  5. 适用于访问权限中,选择Amazon Identity and Access Management(IAM) 角色,该角色允许数据库从您的 Amazon S3 输入位置读取。对于由您的Amazon帐户,您可以选择AwsGlueDataBrewDataAccessRole服务管理角色。这样做可以让 Databrew 访问您拥有的 S3 资源。

  6. 在存储库的采样窗格中,您可以找到用于从数据集构建数据示例的 Databrew 选项。

    适用于类型,选择 Databrew 应如何从数据集中获取行:

    • 使用前 n 行以基于数据集中的第一行创建示例。

    • 使用Random line根据数据集中随机选择的行创建示例。

    • 选择要在样本中显示的行数:500、1,000、2,500 或自定义样本大小,最多 5,000 行。较小的样本数量使 Databrew 能够更快地执行转换,从而节省您开发配方的时间。样本数量越大越准确地反映基础源数据的构成。但是,项目会话初始化和交互式转换速度较慢。

  7. (可选)选择标签将标签附加到您的数据集。

    标签是一个标注,包含一个用户定义的密钥和一个可选值,方便按目的、所有者、环境或其他条件管理、搜索和筛选 Databrew 项目。

  8. 根据需要设置完毕后,选择创建作业.

Databrew 根据需要创建新数据集,根据需要创建新配方,构建数据示例,并创建交互式项目会话。此过程可能需要几分钟才能完成。项目准备就绪后,您可以开始使用数据样本。