在 Amazon Glue 中从蓝图创建工作流 - Amazon Glue
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

在 Amazon Glue 中从蓝图创建工作流

您可以手动创建 Amazon Glue 工作流,一次添加一个组件,也可以从 Amazon Glue 蓝图创建工作流。Amazon Glue 包括常见用例的蓝图。您的 Amazon Glue 开发人员可以创建其他蓝图。

重要

将工作流中任务、爬网程序和触发器的总数限制为 100 个或更少。如果包含超过 100 个,则在尝试恢复或停止工作流运行时可能会出错。

使用蓝图时,您可以根据蓝图定义的常见使用案例快速生成特定使用案例的工作流。您可以通过为蓝图参数提供值来定义特定使用案例。例如,对数据集进行分区的蓝图可以将 Amazon S3 源和目标路径作为参数。

Amazon Glue 通过运行蓝图从蓝图创建工作流。蓝图运行保存您提供的参数值,并用于跟踪工作流及其组件的创建进度和结果。对工作流进行问题排查时,您可以查看蓝图运行以确定用于创建工作流的蓝图参数值。

要创建和查看工作流,您需要特定的 IAM 权限。有关建议的 IAM policy,请参阅蓝图的数据分析人员权限

您可以通过使用 Amazon Glue 控制台、Amazon Glue API 或 Amazon Command Line Interface(Amazon CLI)从蓝图创建工作流。

从蓝图(控制台)创建工作流
  1. 通过 https://console.aws.amazon.com/glue/ 打开 Amazon Glue 控制台。

    以拥有创建工作流权限的用户身份登录。

  2. 在导航窗格中,选择 blueprints(蓝图)

  3. 选择一个蓝图,然后在 Actions (操作) 菜单中,选择 Create workflow (创建工作流)

  4. Create a workflow from <blueprint-name> (从 <blueprint-name> 创建工作流) 页面上,输入以下信息:

    蓝图参数

    这些因蓝图设计而异。有关参数的问题,请咨询开发人员。蓝图通常包含工作流名称的参数。

    IAM 角色

    Amazon Glue 在创建工作流及其组件时承担的角色。该角色必须具有创建和删除工作流、任务、爬网程序和触发器的权限。有关该角色的建议策略,请参阅 蓝图角色的权限

  5. 选择 Submit (提交)

    此时会显示 Blueprint Details (蓝图详细信息) 页面,并在底部显示蓝图运行列表。

  6. 在蓝图运行列表中,检查最上面的蓝图运行以了解工作流创建状态。

    初始状态为 RUNNING。选择刷新按钮,直到状态变为 SUCCEEDED 或者 FAILED

  7. 请执行以下操作之一:

    • 如果完成状态为 SUCCEEDED,您可以转到 Workflows (工作流) 页面,选择新创建的工作流,然后运行它。在运行工作流之前,您可以查看设计图。

    • 如果完成状态为 FAILED,则选择蓝图运行,然后在 Actions (操作) 菜单上,选择 View (查看) 以查看错误消息。

有关工作流和蓝图的更多信息,请参阅以下主题。