Job 编辑器功能 - AmazonGlue 工作室
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 Amazon Web Services 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

Job 编辑器功能

作业编辑器提供以下功能以用于创建和编辑作业。

  • 作业的可视图表,每个作业任务都有一个节点:用于读取数据的数据源节点;用于修改数据的转换节点;用于写入数据的数据目标节点。

    您可以查看和配置作业图中每个节点的属性。您还可以查看作业图中每个节点的方案和示例数据。这些功能可帮助您验证作业是否正在以正确的方式修改和转换数据,而无需运行作业。

  • 脚本查看和编辑选项卡,您可以在其中修改为作业生成的代码。

  • 作 Job 详细信息选项卡,您可以在其中配置各种设置以自定义环境中的Amazon GlueETL 作业运行。

  • 运行选项卡,您可以在其中查看作业的当前运行和上一次运行,查看作业运行的状态,以及访问作业运行的日志。

  • “计划” 选项卡,您可以在其中配置作业的开始时间,或设置定期作业运行。

在可视作业编辑器中使用架构预览

创建或编辑作业时,您可以使用输出架构选项卡以查看数据的架构。

在查看架构之前,作业编辑器需要访问数据源的权限。您可以在编辑器的 “作 Job 详细信息” 选项卡上或输出架构选项卡。如果 IAM 角色具有访问数据源的所有必要权限,则可以在输出架构选项卡。

在可视化作业编辑器中使用数据预览

创建或编辑作业时,您可以使用数据预览选项卡查看数据示例。

在查看数据示例之前,作业编辑器需要访问数据源的权限。第一次选择数据预览选项卡上,系统会提示您选择要使用的 IAM 角色。这可以是您计划用于工作的相同角色,也可以是不同的角色。您选择的 IAM 角色必须具有创建数据预览所需的权限。

选择 IAM 角色后,大约需要 20 到 30 秒才能显示数据。一旦选择 IAM 角色,您就需要为数据预览使用量付费。以下功能可帮助您查看数据。

  • 选择设置图标(齿轮符号)以配置数据预览的首选项。您可以更改样本数量,也可以选择将文本从一行换行到下一行。这些设置适用于作业图中的所有节点。

  • 选择预览 y 个字段中的 x 个按钮选择要预览的列(字段)。使用默认设置预览数据时,作业编辑器会显示数据集的前 5 列。您可以更改此选项以显示全部或不显示(不推荐)。

  • 您可以水平和垂直滚动浏览数据预览窗口。

  • 使用拆分/整个屏幕按钮将 “数据预览” 选项卡展开到整个屏幕(叠加作业图),以便更好地查看数据和数据结构。

数据预览可帮助您创建和测试作业,而无需重复运行作业。

  • 您可以测试 IAM 角色,以确保您有权访问您的数据源或数据目标。

  • 您可以检查转换是否以预期方式修改数据。例如,如果使用筛选器转换,则可以确保筛选器正在选择正确的数据子集。

  • 如果数据集包含具有多种类型值的列,则数据预览会显示这些列的元组列表。每个元组包含数据类型及其值,如下面的屏幕截图所示。

    
              屏幕截图显示节点的 “数据预览” 选项卡。显示的列包括国家/地区、α-2 代码、α-3 代码、数字代码和纬度。列出的前 5 个国家是阿富汗、阿尔巴尼亚、阿尔及利亚、美属萨摩亚和安道尔。对于纬度列,显示的值为:{"长”:33,“字符串”:空},{"长”:41,“字符串”:空},{"长”:28,“字符串”:空},{"长”:空,“字符串”:”-14.3333 "},{" 长”:空,“字符串”:"42.5"。

使用数据预览时的限制

使用数据预览时,您可能会遇到以下限制或限制。

  • 首次选择 “数据预览” 选项卡时,必须选择 IAM 角色。此角色必须具有访问创建数据预览所需的数据和其他资源的必要权限。

  • 提供 IAM 角色后,需要一段时间才能查看数据。对于数据少于 1 GB 的数据集,最长可能需要一分钟时间。如果您拥有较大的数据集,则应使用分区来缩短加载时间。直接从 Amazon S3 加载数据具有最佳性能。

  • 如果您拥有非常大的数据集,并且查询数据以进行数据预览需要超过 30 分钟,则请求将超时。您可以减小数据集大小以使用数据预览。

  • 默认情况下,您会在 “数据预览” 选项卡中看到前 5 列。如果列没有数据值,您将收到一条消息,指出没有要显示的数据。您可以增加采样的行数,或选择不同的列以查看数据值。

  • 当前不支持流数据源或使用自定义连接器的数据源的数据预览。

  • 一个节点上的错误会影响整个作业。如果任何一个节点在数据预览中出现错误,则该错误将显示在所有节点上,直到您更正它。

  • 如果更改作业的数据源,则可能需要更新该数据源的子节点以匹配新架构。例如,如果您有一个用于修改列的 ApplyMapping ture 节点,并且该列不存在于替换数据源中,则需要更新 ApplyMapture 转换节点。

  • 如果查看 SQL 查询转换节点的 “数据预览” 选项卡,并且 SQL 查询使用不正确的字段名称,则数据预览选项卡将显示错误。