创建和使用Amazon Glue DataBrew项目 - Amazon Glue DataBrew
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 Amazon Web Services 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

创建和使用Amazon Glue DataBrew项目

InAmazon Glue DataBrew,aproject是数据分析和转换工作的核心。

在创建项目时,您可以将两个基本组件集中在一起:

Databrew 控制台以高度交互、直观的用户界面呈现您的项目。它鼓励您尝试数百个数据转换,以便您了解它们是如何工作的,以及它们对数据的影响。

您在工程视图中看到的数据是数据集的示例。由于数据集可能非常大,包含数千行甚至数百万行,因此使用示例有助于确保 Databrew 控制台在您以各种方式转换示例数据时保持响应。默认情况下,样本包含数据集中的前 500 行数据。您可以为样本数量选择不同的设置,以及选择哪些行。

在转换示例数据时,Databrew 可帮助您构建和优化项目配置,这是迄今为止您应用的一系列转换。在制品配方将自动保存,因此您可以随时离开项目视图,稍后返回并在停止处恢复操作。

当您的配方准备好使用时,您可以发布它。发布配方可用于 Databrew 作业子系统,在该子系统中,您可以将配方应用于整个数据集,或创建一个丰富的数据配置文件,以便您了解数据的结构、内容和统计特征。

创建项目

要创建项目,请按照以下过程操作。

创建项目

  1. 登录到Amazon Web Services Management Console并打开数据库控制台。

  2. 在导航窗格中,选择项目。然后选择 。创建项目

  3. 输入项目的名称。然后选择要附加到项目的配方:

    • 选择创建新配方如果您是从头开始。这样做会创建一个新的空配方,并将其附加到您的项目中。

    • 选择编辑现有配方如果您有以前发布的配方,要将其用于此项目。如果配方当前附加到另一个项目,或者为其定义了任何作业,则无法在新项目中使用它。选择浏览配方查看可用的配方。

    • 选择从配方导入步骤如果您有以前已发布的现有配方,并希望导入其步骤,然后执行以下操作:

      1. 选择浏览配方查看可用的配方。

      2. 选择要使用的处方的已发布版本。一个配方可以有多个版本,具体取决于您在项目视图中工作时发布它的频率。

      3. 选择查看处方步骤来检查配方中的数据转换。

  4. 在获得配方之后,选择要在选择数据集窗格:

    • 我的数据集— 选择您之前创建的数据集。有关更多信息,请参阅 创建项目。)

    • 示例文件— 基于由Amazon。此示例数据是探索 Databrew 可以做些什么的好方法,而无需提供自己的数据。确保为您的数据集输入名称。

    • 新数据集— 创建新数据集。有关更多信息,请参阅 创建项目。

  5. 适用于访问权限中,选择Amazon Identity and Access Management(IAM) 角色,该角色允许数据库从您的 Amazon S3 输入位置读取。对于由您的Amazon帐户,您可以选择AwsGlueDataBrewDataAccessRole服务管理角色。这样做可以让 Databrew 访问您拥有的 S3 资源。

  6. 在存储库的采样窗格中,您可以找到用于从数据集构建数据示例的 Databrew 选项。

    适用于类型,选择 Databrew 应如何从数据集中获取行:

    • 使用前 n 行以基于数据集中的第一行创建示例。

    • 使用随机行根据数据集中随机选择的行创建示例。

    • 选择要在样本中显示的行数:500、1,000、2,500 或自定义样本大小,最多 5,000 行。较小的样本数量使 Databrew 能够更快地执行转换,从而节省您开发配方的时间。样本数量越大越准确地反映基础源数据的构成。但是,项目会话初始化和交互式转换速度较慢。

  7. (可选)选择标签将标签附加到您的数据集。

    标签是一个简单标注,包含一个用户定义的密钥和一个可选值,让您能够更轻松地按照目的、所有者、环境或其他条件来管理、搜索和筛选 Databrew 项目。

  8. 根据需要进行设置后,选择创建作业

Databrew 根据需要创建新数据集,根据需要创建新配方,构建数据示例,并创建交互式项目会话。此过程可能需要几分钟才能完成。项目准备就绪后,您可以开始使用数据样本。