使用 管理 ETL 作业AmazonGlue 工作室 - AmazonGlue 工作室
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 Amazon Web Services 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

使用 管理 ETL 作业AmazonGlue 工作室

您可以使用简单的图形界面AmazonGlue 工作室管理您的 ETL 作业。使用导航菜单,选择作业以查看作业页. 在此页面上,您可以查看所有使用AmazonGlue 工作室或Amazon Glue控制台。您可以在此页面上查看、管理和运行您的作业。

启动作业运行

InAmazonGlue 工作室,你可以按需运行你的工作。作业可以运行多次,并且每次运行作业时,Amazon Glue收集有关工作活动和绩效的信息。此信息称为作业运行,并由作业运行 ID 标识。

您可以通过以下方式启动作业运行AmazonGlue 工作室:

  • 在存储库的作业页面上,选择要启动的任务,然后选择运行作业按钮。

  • 如果您在可视编辑器中查看作业并且作业已保存,则可以选择运行按钮启动作业运行。

有关作业运行的更多信息,请参阅在Amazon Glue控制台中的Amazon Glue开发人员指南

计划作业运行

InAmazonGlue Studio,您可以创建一个计划,让您的作业在特定时间运行。您可以指定约束条件,例如作业的运行次数、它们在一周中的哪几天运行,以及具体在什么时间运行。这些约束基于cron并且具有与cron。例如,如果您选择在每月的第 31 天运行任务,请记住,有些月份没有 31 天。有关 的更多信息cron,请参阅Cron 表达式中的Amazon Glue开发人员指南

按照计划运行作业

  1. 使用以下方法之一创建任务计划:

    • 在存储库的作业页面上,选择要为其创建计划的作业,选择操作,然后选择计划作业作业

    • 如果您在可视编辑器中查看作业且作业已保存,请选择Schedules选项卡中。然后选择 。创建时间表

  2. 在存储库的计划作业运行页面上,输入以下信息:

    • 名称:输入作业计划的名称。

    • Frequency:输入作业计划的频率。您可以选择以下各项内容:

      • 每小时:作业将每小时运行一次,从特定的分钟开始。您可以指定分钟作业应运行的小时。默认情况下,当您选择每小时时,作业将在小时开始运行(分钟 0)。

      • 每天:作业将每天运行,从一次开始。您可以指定分钟作业应运行的小时和开始小时作业。小时使用 23 小时的时钟指定,其中您使用数字 13 到 23 表示下午小时。分钟和小时的默认值为 0,这意味着如果选择每天,则默认情况下,作业将在午夜运行。

      • 每周:作业将在一天或多天内每周运行。除了前面介绍的 Daily 相同设置之外,您还可以选择运行作业的星期几。您可以选择一天或多天。

      • 每月:作业将在特定日期每月运行。除了前面介绍的 Daily 相同设置之外,您还可以选择运行作业的月份中的某一天。将日指定为 1 到 31 之间的数字值。如果您选择一个月中不存在的日期,例如 30th二月的一天,那么作业不会运行该月。

      • Custom (自定义):输入作业计划的表达式,使用cron语法。Cron 表达式允许您创建更复杂的计划,例如每月的最后一天(而不是一个月的特定日期)或 7th和 21ST一月中的几天。

        请参阅Cron 表达式中的Amazon Glue开发人员指南

    • 描述:您可以选择为任务计划输入描述。如果您计划对多个作业使用相同的计划,则具有描述可以更轻松地确定作业计划的作用。

  3. 选择创建计划保存作业计划。

  4. 创建计划后,将在控制台页面顶部显示成功消息。您可以选择Job 详细信息以查看作业详细信息。这将打开可视作业编辑器页面,其中Schedules选项卡。

管理作业计划

为作业创建调度后,可以在可视编辑器中打开作业,然后选择Schedules选项卡管理计划。

在存储库的Schedules选项卡,您可以执行以下任务:

  • 创建新计划。

    选择创建时间表,然后输入计划的信息,如计划作业运行

  • 编辑现有计划。

    选择要编辑的计划,然后选择操作其次是编辑计划。当您选择编辑现有计划时,Frequency显示为Custom (自定义),并且调度显示为cron表达式。您可以修改cron表达式,或者使用Frequency按钮。完成更改后,选择更新计划

  • 暂停活动计划。

    选择活动的计划,然后选择操作其次是暂停计划。时间表立即停用。选择刷新(重新加载)按钮以查看更新的作业计划状态。

  • 恢复暂停的计划。

    选择停用的计划,然后选择操作其次是恢复时间表。时间表立即被激活。选择刷新(重新加载)按钮以查看更新的作业计划状态。

  • 删除计划。

    选择要删除的计划,然后选择操作其次是删除计划。时间表即被删除。选择刷新(重新加载)按钮以查看更新的作业计划列表。该计划将显示删除直到它被完全删除。

停止作业运行

您可以在作业完成作业运行之前将其停止。如果您知道作业配置不正确,或者作业需要太长时间才能完成,则可以选择此选项。

在存储库的监控页面上,在Job 运行列表中,选择要停止的任务,选择操作,然后选择停止运行

查看您的作业

您可以在作业页. 您可以通过选择作业在导航窗格中。

在存储库的作业页面上,您可以查看在您的帐户中创建的所有作业。这些区域有:您的作业列表显示作业名称、类型、上次运行该作业的状态以及创建和上次修改作业的日期。您可以选择作业的名称以查看该作业的详细信息。

您还可以使用监控控制面板查看您的所有任务。您可以访问仪表板,方法是选择监控在导航窗格中。有关使用控制面板的更多信息,请参阅监控中的 ETL 作业AmazonGlue 工作室

自定义作业显示

您可以自定义作业在您的作业的 部分作业页. 此外,您可以在搜索文本字段中输入文本,以便仅显示名称包含该文本的作业。

如果选择 “设置” 图标 
            A gear symbol
          中的您的作业部分中,您可以自定义AmazonGlue 工作室显示表中的信息。您可以选择在显示中换行文本,更改页面上显示的作业数,以及指定要显示的列。

查看最近作业运行的信息

在源位置添加新数据时,作业可以多次运行。每次运行作业时,都会为作业运行分配一个唯一的 ID,并收集有关该作业运行的信息。您可以使用以下方法查看此信息:

  • 选择运行选项卡,以查看当前显示的作业的作业运行信息。

    在存储库的运行选项卡(最近运行的作业页面),每个作业运行都有一张卡片。显示在运行选项卡包括:

    • Job 运行 ID

    • 尝试运行此作业的次数

    • 作业运行的状态

    • 作业运行的开始和结束时间

    • 作业运行的运行时

    • 指向任务日志文件的链接

    • 指向任务错误日志文件的链接

    • 失败作业返回的错误

  • 在导航窗格中,选择 Monitoring (监控)。向下滚动到Job 运行列表。选择作业,然后选择查看运行详细信息

    作业运行详细信息页面上显示的信息可从监控页面更全面。这些内容在查看作业运行的详细信息

有关任务日志的更多信息,请参阅查看作业运行日志

查看作业脚本

在为作业中的所有节点提供信息后,AmazonGlue Studio 生成一个脚本,供作业使用,以便从源读取数据、转换数据以及写入目标位置的数据。如果保存作业,则可以随时查看此脚本。

查看作业生成的脚本

  1. 选择作业在导航窗格中。

  2. 在存储库的作业页面上,在您的作业列表中,选择要查看的任务的名称。或者,您可以在列表中选择任务,选择操作菜单,然后选择编辑作业

  3. 在可视编辑器页面上,选择Script选项卡以查看作业脚本。

    如果要编辑作业脚本,请参阅编辑或上载作业脚本

修改作业属性

作业图中的节点定义了作业执行的操作,但也可以为作业配置多个属性。这些属性确定作业在其中运行的环境、它使用的资源、阈值设置、安全设置等。

自定义作业运行环境

  1. 选择作业在导航窗格中。

  2. 在存储库的作业页面上,在您的作业列表中,选择要查看的任务的名称。

  3. 在可视编辑器页面上,选择Job 详细信息选项卡上。

  4. 根据需要修改作业属性。

    有关任务属性的更多信息,请参阅定义作业属性中的Amazon Glue开发人员指南

  5. 展开高级属性部分,如果您需要指定以下附加作业属性:

    • 脚本文件名— 存储在 Amazon S3 中的作业脚本的文件的名称。

    • 脚本路径— 存储作业脚本的 Amazon S3 位置。

    • 作业指标— 打开创建Amazon CloudWatch指标运行时。

    • 连续日志记录— 打开 CloudWatch 的连续日志记录功能,以便在作业完成之前可以查看日志。

    • Spark UISpark UI 日志路径— 打开 Spark UI 监控此作业的使用,并指定 Spark UI 日志的位置。

    • 最大并发数量— 设置此作业允许的并发运行的最大数量。

    • 临时路径— Amazon S3 中工作目录的位置,以便当Amazon Glue运行作业脚本。

    • 延迟通知阈值(分钟)— 指定作业的延迟阈值。如果作业运行时间长于阈值指定的时间,则Amazon Glue将作业的延迟通知发送给 CloudWatch。

    • 安全配置服务器端加密— 使用这些字段选择作业的加密选项。

    • 使用 Glue 数据目录作为 Hive 元存储— 如果您要使用Amazon Glue Data Catalog作为阿帕奇蜂巢元数据仓的替代方案。

    • 附加的网络连接— 对于 VPC 中的数据源,您可以指定类型为Network,以确保您的任务通过 VPC 访问您的数据。

    • Python 库路径从属 jars 路径,或者引用的文件路径— 使用这些字段指定作业运行脚本时使用的其他文件的位置。

    • Job 参数— 您可以添加一组键-值对,以命名参数传递给作业脚本。在 Python 中调用 Amazon Glue API ,最好按名称显式传递参数。有关在作业脚本中使用参数的更多信息,请参阅在 中传递和访问 Python 参数Amazon Glue中的Amazon Glue开发人员指南

    • 标签— 您可以向作业添加标签,以帮助您组织和识别它们。

  6. 修改作业属性后,保存作业。

保存作业

红色尚未保存 Job标注将显示在Save按钮,直到您保存作业。


        保存按钮左侧带有 “Job 尚未保存” 标签的红色椭圆形。

保存您的作业

  1. 提供所有必需的信息,请在VisualJob 详细信息选项卡中。

  2. 选择保存按钮。

    保存作业后,“未保存” 标注将更改为显示上次保存作业的时间和日期。

如果您退出AmazonGlue Studio 保存您的作业之前,您下次登录AmazonGlue 工作室,出现通知。通知指示存在未保存的作业,并询问您是否要恢复该作业。如果选择还原作业,则可以继续对其进行编辑。

排除保存作业时的错误

如果选择Save按钮,但您的作业缺少了一些必需的信息,那么缺少信息的选项卡上会出现一个红色标注。标注中的数字表示检测到的缺失字段数。


          一个屏幕快照,显示名为 “无标题作业” 的 Job 的可视编辑器窗格选项卡,在 Visual 选项卡上标记为 2 的标注,并在 “作业详细信息” 选项卡上标记为 1 的标注。
  • 如果可视化编辑器中的节点配置不正确,Visual选项卡显示红色标注,出现错误的节点显示警告符号 
                A red triangle with an exclamation point in the center

    1. 选择节点。在节点详细信息面板中,缺少信息或不正确信息所在的选项卡上会显示一个红色标注。

    2. 在节点详细信息面板中选择显示红色标注的选项卡,然后找到突出显示的问题字段。字段下方会显示一条错误消息,提供有关问题的其他信息。

      
                  显示作业编辑器中 Visual 选项卡的屏幕截图,该选项卡标记为 2。将选中带有警告标签的数据源节点。在节点详细信息面板中,“数据源属性” 选项卡具有标记为 2 的标注,并处于选中状态。“数据库” 和 “表” 两个字段以红色概述,下面有一些消息,指示这些字段中需要一个值。
  • 如果作业属性存在问题,Job 详细信息选项卡会显示一个红色标注。选择该选项卡并找到突出显示的问题字段。字段下面的错误消息提供有关此问题的其他信息。

    
              显示作业编辑器中 “Job 详细信息” 选项卡的屏幕截图,该选项卡带有标记为 1 的标注。“IAM 角色” 字段以红色概述,下面有一条消息,指示值是必需的。

克隆任务

您可以使用克隆作业操作将现有作业复制到新作业中。

通过复制现有作业创建新作业

  1. 在存储库的作业页面上,在您的作业列表中,选择要复制的任务。

  2. 操作菜单中,选择克隆作业

  3. 输入新作业的名称。然后,您可以保存或编辑作业。

删除作业

您可以删除不再需要的作业。您可以在单个操作中删除一项或多项任务。

删除作业AmazonGlue 工作室

  1. 在存储库的作业页面上,在您的作业列表中,选择要删除的作业。

  2. 操作菜单中,选择删除作业

  3. 通过输入以下方法验证您要删除任务:delete

当您查看Job 详细信息选项卡中的任务。