是什么AmazonGlue 工作室? - AmazonGlue 工作室
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 Amazon Web Services 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

是什么AmazonGlue 工作室?

AmazonGlue Studio 是一个新的图形界面,使用可轻松创建、运行和监控提取、转换和加载 (ETL) 任务Amazon Glue。您可以直观地编写数据转换工作流,并在Amazon Glue基于 Apache 火花的无服务器 ETL 引擎。您可以在作业的每个步骤中检查架构和数据结果。


            屏幕截图显示了AmazonGlue 工作室。此时将显示一个作业图,其中包含三个源节点、三个转换节点、两个连接节点和一个数据目标节点。在图形右侧,节点详细信息面板显示 S3 数据源的 “数据预览” 选项卡。

AmazonGlue Studio 不仅用于表格数据,而且还用于半结构化数据,这些数据在类似电子表格的数据准备界面中很难呈现。半结构化数据的示例包括应用程序日志、移动事件、物联网 (IoT) 事件流和社交源。

在中创建任务时AmazonGlue Studio 中,您可以选择多种数据源,这些数据源存储在Amazon服务。您可以快速准备数据,以便在数据仓库和数据湖中进行分析。AmazonGlue Studio 还提供工具来监控 ETL 工作流程并验证它们是否按预期运行。您可以预览每个节点的数据集。这有助于您通过在作业的每个步骤显示数据样本来调试 ETL 作业。

AmazonGlue 工作室提供了一个可视化界面,可以轻松:

  • 从 Amazon S3、Amazon Kinesis 或 JDBC 源提取数据。

  • 配置用于连接、采样或转换数据的转换。

  • 指定转换后的数据的目标位置。

  • 查看作业中每个点的方案或数据集示例。

  • 运行、监视和管理在AmazonGlue 工作室。

的功能AmazonGlue 工作室

AmazonGlue Studio 可帮助您创建和管理收集、转换和清理数据的作业。高级用户可以使用AmazonGlue Studio 进行故障排除和编辑作业脚本。

可视化任务编辑器

在中创建和编辑任务时,可以执行以下操作。AmazonGlue 工作室:

  • 将其他节点添加到要实现的作业中:

    • 多个数据源。

    • 多个数据目标。

    • 以前不受支持的外部数据存储使用连接器的数据源和目标

  • 查看作业图中每个节点上的数据示例。

  • 更改现有节点的父节点。

  • 添加具有以下内容的转换:

    • 加入数据源。

    • 从数据中选择特定字段。

    • 删除字段。

    • 将重命名为字段。

    • 更改字段的数据类型。

    • 将数据中的选择字段写入 Amazon S3 存储桶 (spigot) 中的 JSON 文件。

    • 从数据集中筛选出数据。

    • 将数据集拆分为两个数据集。

    • 查找数据集中的缺失值,并在单独的列中提供缺失值。

    • 使用 SQL 查询和转换数据。

    • 使用自定义代码。

Job 绩效控制面板

AmazonGlue Studio 为您的 ETL 作业提供了一个全面的运行仪表板。仪表板显示有关从特定时间范围运行的作业的信息。仪表板上显示的信息包括:

  • 作业概述摘要 — 显示总作业、当前运行、已完成运行和失败作业的高级概览。

  • 状态摘要 — 基于作业属性(如工作人员类型和作业类型)提供高级别作业度量。

  • Job 运行时间线 — 当前选定时间范围内成功运行、失败运行和总运行的条形图摘要。

  • Job 运行细分 — 从所选时间范围运行的作业的详细列表。

Support 数据集分区

您可以使用AmazonGlue Studio 高效处理分区数据集。您可以使用 SQL 表达式或用户定义的函数加载、筛选、转换和保存分区数据,以避免从 Amazon S3 列出和读取不必要的数据。

应在何时使用AmazonGlue 工作室?

使用AmazonGlue Studio 用于简单的可视化界面,创建 ETL 工作流程以进行数据清理和转换,并在Amazon Glue。

AmazonGlue Studio 让 ETL 开发人员能够轻松创建可重复的流程,以移动和转换大型半结构化数据集,并将其加载到数据湖和数据仓库中。它提供了一个方框和箭头样式的视觉界面,用于开发和管理Amazon GlueETL 工作流,您可以选择使用代码进行自定义。AmazonGlue Studio 结合了传统 ETL 工具的易用性,以及Amazon Glue的大数据处理引擎。

AmazonGlue Studio 提供了多种自定义 ETL 脚本的方法,包括在可视编辑器中添加代表代码片段的节点。

使用AmazonGlue 工作室,更轻松地管理作业。 AmazonGlue Studio 为您提供作业和作业运行管理界面,清楚说明作业之间的关系,并提供作业运行的整体情况。作业管理页面可以轻松地对作业执行批量操作(以前很难在Amazon Glue控制台)。所有作业运行均可在单个界面中进行搜索和筛选。这使您可以不断更新 ETL 操作和您使用的资源的视图。您可以在AmazonGlue Studio 来监控您的作业运行并验证它们是否按预期运行。

访问AmazonGlue 工作室

访问AmazonGlue 工作室,登录Amazon具有所需权限的用户,如设置 IAM 权限AmazonGlue 工作室。然后可以登录Amazon Web Services Management Console并打开Amazon Glue在中的控制台https://console.aws.amazon.com/glue/。单击AmazonGlue 工作室链接。

定价AmazonGlue 工作室

使用AmazonGlue 工作室,您需要为数据预览收费。为作业指定 IAM 角色后,可视编辑器将启动 Apache Spark 会话,以便对源数据进行采样并执行转换。此会话运行 30 分钟,然后自动关闭。Amazon按开发终端节点费率(Dved-DPU 小时)向您收取 2 个 DPU 费用,通常每 30 分钟会话收取 0.44 美元的费用。每个地区的费率可能会有所不同。在 30 分钟会议结束时,您可以选择重试上的数据预览选项卡,或者重新加载可视编辑器页面,以相同的速率开始新的 30 分钟会话。

您还需要为基础的Amazon作业使用或与之交互的服务,例如Amazon Glue、数据源和数据目标。有关定价信息,请参阅 Amazon Glue 定价