本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
创建和使用 Amazon Glue DataBrew 项目
在中 Amazon Glue DataBrew,项目是数据分析和转换工作的核心。
创建项目时,需要将两个基本组件组合在一起:
-
数据集,可提供对源数据的只读访问权限。有关更多信息,请参阅 使用连接数据 Amazon Glue DataBrew。
-
一种方法,用于将 DataBrew 数据转换应用于数据集。有关更多信息,请参阅 创建和使用 Amazon Glue DataBrew 食谱。
DataBrew 控制台以高度交互且直观的用户界面呈现您的项目。它鼓励你尝试数百种数据转换,这样你就可以了解它们是如何工作的,以及它们对你的数据有什么影响。
您在项目视图中看到的数据是您的数据集的示例。由于数据集可能非常大,有数千甚至数百万行,因此使用样本有助于确保 DataBrew 控制台在以各种方式转换样本数据时保持响应能力。默认情况下,样本包含数据集中的前 500 行数据。您可以为样本大小选择不同的设置,也可以选择哪些行。
在转换示例数据时, DataBrew 可以帮助您构建和完善项目配方,这是您迄今为止应用 step-by-step 的一系列转换。您的 work-in-progress食谱会自动保存,因此您可以随时离开项目视图,稍后返回,然后从上次停下来的地方继续前进。
当你的食谱准备好可供使用时,你可以发布它。发布配方使其可供 DataBrew 作业子系统使用,在那里你可以将配方应用于整个数据集,或者创建广泛的数据配置文件,让你了解数据的结构、内容和统计特征。
创建项目
要创建项目,请按照以下过程操作。
创建项目
-
登录到 Amazon Web Services Management Console 并打开 DataBrew 控制台。
-
在导航窗格上,选择项目。然后选择 “创建项目”。
-
输入项目的名称。然后选择要附加到项目中的配方:
-
如果您从头开始,请选择 “创建新食谱”。这样做会创建一个新的空配方并将其附加到您的项目中。
-
如果您有之前发布的食谱要用于此项目,请选择 “编辑现有食谱”。如果该配方当前已附加到另一个项目,或者已为其定义了任何作业,则无法在新项目中使用它。选择浏览配方,查看可用的配方。
-
如果您有以前发布过的现有食谱并想要导入其步骤,请选择从食谱中导入步骤,然后执行以下操作:
-
选择浏览配方,查看可用的配方。
-
选择要使用的配方的已发布版本。一个配方可以有多个版本,具体取决于你在项目视图中工作时发布它的频率。
-
选择 “查看配方步骤” 以检查配方中的数据转换。
-
-
-
完成配方后,在选择数据集窗格中,选择要处理的数据集:
-
我的数据集-选择您之前创建的数据集。有关更多信息,请参阅创建项目。
-
示例文件-根据由维护的示例数据创建新的数据集 Amazon。此示例数据是探索 DataBrew 可以做什么的好方法,而无需提供自己的数据。请确保输入数据集的名称。
-
新数据集-创建新数据集。有关更多信息,请参阅 创建项目。
-
-
要获得访问权限,请选择允许从您的 Amazon S3 输入位置 DataBrew 进行读取的 Amazon Identity and Access Management (IAM) 角色。对于您的 Amazon 账户拥有的 S3 地点,您可以选择
AwsGlueDataBrewDataAccessRole
服务托管角色。这样做可以 DataBrew 访问您拥有的 S3 资源。 -
在采样窗格上,您可以找到 DataBrew 用于从您的数据集构建数据样本的选项。
在 “类型” 中,选择 DataBrew 应如何从数据集中获取行:
-
使用前 n 行根据数据集中的前几行创建样本。
-
使用随机行根据数据集中随机选择的行创建样本。
-
选择要在样本中显示的行数:500、1,000、2,500,或者自定义样本大小,最多 5,000 行。较小的样本量可以 DataBrew 更快地执行转换,从而节省开发配方的时间。样本量越大,就能更准确地反映基础源数据的构成。但是,项目会话初始化和交互式转换的速度较慢。
-
-
(可选)选择标签以将标签附加到您的数据集。
标签是简单标注,包含一个用户定义的键和一个可选值,方便管理、搜索和筛选 DataBrew 项目,方便按目的、所有者、环境或其他标准进行项目。
-
根据需要进行设置后,选择 Create job(创建作业)。
DataBrew 根据需要创建新数据集,根据需要创建新配方,构建数据样本,并创建交互式项目会话。此过程可能需要几分钟完成。项目准备就绪后,您可以开始处理数据样本。