AWS Glue Studio 是什么? - AWS Glue Studio
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 AWS 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

AWS Glue Studio 是什么?

AWS Glue Studio 是一种新的图形界面,它让用户能够在 AWS Glue 中轻松创建、运行和监控提取、转换和加载 (ETL) 作业。您可以直观地编写数据转换工作流,并在 AWS Glue 的基于 Apache Spark 的无服务器 ETL 引擎上无缝运行它们。AWS Glue Studio 作业编辑界面


            屏幕截图显示 AWS Glue Studio 的作业编辑页面。将显示一个作业图,其中包含三个源节点、两个转换节点、两个联接节点和一个数据目标节点。在图表右侧,节点详细信息面板显示 S3 目标的数据目标属性。

AWS Glue Studio 不仅设计用于表格数据,还设计用于半结构化数据,这难以在类似电子表格的数据准备接口中进行渲染。半结构化数据的示例包括应用程序日志、移动事件、物联网 (IoT) 事件流和社交源。

在 AWS Glue Studio 中创建任务时,您可以从存储在 AWS 服务中的各种数据源中进行选择。您可以快速准备该数据以在数据仓库和数据湖中进行分析。AWS Glue Studio 还提供工具来监控 ETL 工作流程并验证它们是否按预期运行。

AWS Glue Studio 提供了一个可视化界面,可让您轻松地:

  • 从 Amazon S3、Amazon Kinesis 或 JDBC 源中拉取数据。

  • 配置联接、采样或转换数据的转换。

  • 指定转换后数据的目标位置。

  • 运行、监控和管理在 AWS Glue Studio 中创建的作业。

AWS Glue Studio 功能

AWS Glue Studio可帮助您创建和管理收集、转换和清理数据的任务。

可视化作业编辑器

在 AWS Glue Studio 中创建和编辑作业时,您可以执行以下操作:

  • 将其他节点添加到作业以实施:

    • 多个数据源。

    • 多个数据目标。

    • 其他转换。

  • 更改现有节点的父节点。

  • 添加以下转换:

    • 联接数据源。

    • 从数据中选择特定字段。

    • 删除字段。

    • 重命名字段。

    • 更改字段的数据类型。

    • 将数据中的选择字段写入 Amazon S3 存储桶 (spigot) 中的 JSON 文件。

    • 从数据集中筛选出数据

    • 使用自定义代码

作业性能控制面板

AWS Glue Studio 为您的 ETL 作业提供了全面的运行控制面板。控制面板显示有关特定时间范围内作业运行的信息。控制面板上显示的信息包括:

  • 作业概述摘要 – 概括性概述,显示总作业、当前运行、已完成的运行和失败的作业。

  • 状态摘要 – 根据作业属性(如工作线程类型和作业类型)提供高级别作业指标。

  • 作业运行时间线 – 当前所选时间范围内成功、失败和总运行的条形图摘要。

  • 作业运行细分 – 所选时间范围的作业运行的详细列表。

支持数据集分区

您可以使用 AWS Glue Studio 高效地处理分区数据集。您可以使用 SQL 表达式或用户定义的函数加载、筛选、转换和保存分区数据 – 避免列出和读取来自 Amazon S3 的不必要的数据。

应在何时使用 AWS Glue Studio?

将 AWS Glue Studio 用于简单的可视化界面,可创建用于数据清理和转换的 ETL 工作流程,并在 AWS Glue 上运行它们。

AWS Glue Studio 使 ETL 开发人员能够轻松创建可重复的流程,以移动和转换大规模半结构化数据集,并将它们加载到数据湖和数据仓库中。它提供了一个框和箭头样式的可视化界面,用于开发和管理 AWS Glue ETL 工作流程,您可以选择性地使用代码自定义这些工作流程。AWS Glue Studio 结合了传统 ETL 工具的易用性,以及 AWS Glue 大数据处理引擎的强大功能和灵活性。

AWS Glue Studio 提供了多种方式来自定义 ETL 脚本,包括将代码段添加为可视化图形编辑器中的节点。

使用 AWS Glue Studio 可简化作业管理。 AWS Glue Studio 为您提供作业和作业运行管理界面,这些界面可清楚地显示作业之间的关系,并提供作业运行的整体概况。通过作业管理页面,您可以轻松对作业执行批量操作(以前很难在 AWS Glue 控制台中执行操作)。所有作业运行都在单个界面中可用,您可以在其中搜索和筛选。这为您提供了 ETL 操作和所用资源的持续更新视图。您可以使用 AWS Glue Studio 中的实时控制面板监控您的作业运行并验证它们是否按预期运行。

访问AWS Glue Studio

要访问 AWS Glue Studio,请以具有所需权限的用户身份登录 AWS,如为 IAM 设置 AWS Glue Studio 权限中所述。然后,您可以登录 AWS 管理控制台 并通过以下网址打开 AWS Glue 控制台:https://console.amazonaws.cn/glue/。在导航窗格中,单击 AWS Glue Studio 链接。

AWS Glue Studio定价

使用 AWS Glue Studio 无需额外费用。您只需为您的作业使用或与之交互的基础 AWS 服务付费 – 例如,AWS Glue、您的数据源和您的数据目标。有关定价信息,请参阅 AWS Glue 定价