使用管理ETL作业 AWS Glue Studio - AWS Glue Studio
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 AWS 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

使用管理ETL作业 AWS Glue Studio

您可以使用中的简单图形界面 AWS Glue Studio 管理ETL作业。使用导航菜单,选择 工作 查看 管理作业 第页。在此页面上,您可以看到您创建的所有作业, AWS Glue Studio 或 AWS Glue 控制台。您可以在此页面上查看、管理和运行作业。

开始作业运行

英寸 AWS Glue Studio,您可以按需运行作业。一个作业可以多次运行,每次运行该作业时, AWS Glue 收集有关作业活动和绩效的信息。此信息被称为 作业运行 通过作业运行ID进行标识。

您可以在中启动作业运行 以下方法 AWS Glue Studio:

  • 管理作业 选择您要开始的作业,然后选择 运行作业 按钮。

  • 如果您在可视图表编辑器中查看作业且作业已保存,则可以选择 运行 按钮以启动作业运行。

有关作业运行的更多信息,请参阅 在AWSGlueConsole上处理作业AWS Glue 开发人员指南.

停止作业运行

您可以在作业运行完成之前停止作业。如果您知道作业未正确配置,或者作业完成时间过长,则可以选择此选项。

监控 页面,在 作业运行故障 列表中,选择要停止的作业,请选择 操作,然后选择 停止运行.

查看您的作业

您可以在 管理作业 第页。您可以通过选择 工作 在导航窗格中。

管理作业 页面中,您可以看到在您的帐户中创建的所有作业。的 您的工作 列表显示作业名称、类型、该作业的上次运行状态,以及作业创建和上次修改的日期。您可以选择作业的名称以查看该作业的详细信息。

您还可以使用监控仪表板查看所有作业。您可以通过选择 监控 在导航窗格中。有关使用仪表盘的详细信息,请参阅 在 AWS Glue Studio 中监控 ETL 作业.

自定义作业显示

您可以自定义作业在 您的工作 部分 管理作业 第页。此外,您可以在搜索文本字段中输入文本,以便只显示名称中包含该文本的作业。

如果单击设置图标, 
            齿轮符号
          您的工作 部分,您可以自定义 AWS Glue Studio 在表格中显示信息。您可以选择对显示中的文本行进行换行,更改页面上所显示的作业数,并指定要显示的列。

查看最近作业运行的信息

当在源位置添加新数据时,作业可以多次运行。每次运行作业时,都会为作业运行分配一个唯一的ID,并收集有关该作业运行的信息。您可以使用以下任何方法查看此信息:

  • 如果您使用可视化图表编辑器创建了一个作业,然后选择 运行 按钮,您可以在通知消息中选择 查看运行运行详细信息 选项卡,以查看作业运行信息。

  • 在导航窗格中,选择 工作,然后在 您的工作 列表。这将在可视作业编辑器中打开作业。选择 运行详细信息 选项卡,以查看作业运行信息。

  • 在导航窗格中,选择 Monitoring (监控)。向下滚动到 作业运行故障 列表。选择作业,然后选择 查看运行详细信息.

作业运行详细信息页面上显示的信息包括:

  • 作业运行ID

  • 尝试运行此作业的次数

  • 作业运行的状态

  • 作业运行的开始和结束时间

  • 作业运行的运行时间

  • 作业日志文件的链接

  • 作业错误日志文件的链接

  • 失败作业返回错误

有关作业日志的更多信息,请参阅 查看作业运行日志.

查看作业脚本

提供图表中所有节点的信息后, AWS Glue Studio 生成脚本,供作业用于从源读取数据、转换数据以及在目标位置写入数据。如果您保存了作业,您可以随时查看此脚本。

  1. 选择 工作 在导航窗格中。

  2. 管理作业 页面,在 您的工作 列表中,选择要查看的作业的名称。

  3. 在可视图形编辑页面上,选择 脚本 选项卡,查看作业脚本。

    您只能查看生成的脚本–您无法编辑它。

修改作业属性

图表中的节点定义作业执行的操作,但您也可以为作业配置多个属性。这些属性决定了作业运行的环境、其使用的资源、阈值设置、安全设置等。

  1. 选择 工作 在导航窗格中。

  2. 管理作业 页面,在 您的工作 列表中,选择要查看的作业的名称。

  3. 在可视图形编辑页面上,选择 作业详细信息 选项卡。

  4. 根据需要修改作业属性。

    有关作业属性的更多信息,请参阅 定义作业属性AWS Glue 开发人员指南.

  5. 展开 高级属性 段落,如果需要指定这些附加的作业属性:

    • 延迟通知阈值(分钟)–指定作业的延迟阈值。如果作业运行的时间比阈值指定的时间长,则 AWS Glue 将作业的延迟通知发送至 Amazon CloudWatch.

    • 安全配置服务器端加密–使用这些字段为作业选择加密选项。

    • Python库路径, 相关罐路径,或 引用的文件路径–使用这些字段可指定执行脚本时作业使用的其他文件的位置。

    • 作业参数–您可以添加一组键值对,作为命名参数传递到作业脚本。在Python呼叫中, AWS Glue API,最好以名称明确传递参数。有关在作业脚本中使用参数的更多信息,请参阅 在AWSGlue中传递和访问Python参数AWS Glue 开发人员指南.

    • 标签–您可以向作业添加标记,以帮助您组织和识别它们。

  6. 修改作业属性后,保存作业。

保存作业

红色 作业尚未保存 标注显示在 保存 按钮,直到您保存作业。


        保存按钮左侧的红色椭圆形标签为“Jobhasnotbeensaved”(尚未保存作业)。

您必须提供所有必要信息,然后才能选择 保存 按钮保存作业。保存作业后,标注将更改以显示作业上次保存的时间。

如果您退出 AWS Glue Studio 在保存工作之前,下次登录 AWS Glue Studio,将显示通知。该通知指示存在未保存的作业,并询问您是否要还原它。您可以恢复作业并继续编辑它,或创建新作业。

保存作业时的故障排除错误

如果您选择了 保存 按钮,但您的作业缺少某些信息,然后在缺少信息的选项卡上显示红色标注。


          显示可视图形编辑器窗格的选项卡的屏幕截图,在“可视”选项卡上标注了1。
  • 如果图表中的节点配置不正确, 视觉 选项卡显示红色标注,带有错误的节点显示警告符号 
                中心带有感叹号的红色三角形
              .

    1. 选择节点。在节点详细信息面板中,缺少或不正确的信息所在的选项卡上会出现一个红色标注。

      
                  显示节点详细信息面板的选项卡的屏幕截图,在“转换”选项卡上有一个标为1的标注。
    2. 在节点详细信息面板中选择显示红色标注的选项卡,然后找到突出显示的问题字段。字段下方的错误消息提供有关问题的其他信息。

  • 如果问题是图表中缺少节点, 视觉 选项卡显示红色标注,图形右侧的区域(显示节点详细信息面板)显示指示问题的消息。

  • 如果作业属性出现问题, 作业详细信息 选项卡显示红色标注。选择 作业详细信息 选项卡,然后定位问题字段,这些字段会突出显示。字段下方的错误消息提供有关问题的其他信息。

克隆作业

您可以使用复制操作将现有作业复制到新作业中。

  1. 管理作业 页面,在 您的工作 列表中,选择要复制的作业。

  2. 操作 菜单,选择 克隆作业.

  3. 输入新作业的名称。然后,您可以保存或编辑作业。