从 AWS Glue 中的蓝图创建工作流 - AWS Glue
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 AWS 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

从 AWS Glue 中的蓝图创建工作流

AWS Glue 蓝图功能目前为 AWS Glue 的预览版,随时可能更改。

您可以手动创建 AWS Glue 工作流,一次添加一个组件,也可以从 AWS Glue 蓝图创建工作流程。AWS Glue 包含常见使用案例蓝图。您的 AWS Glue 开发人员可以创建其他蓝图。

使用蓝图时,您可以根据蓝图定义的通用用例快速生成特定用例的工作流。您可以通过为蓝图参数提供值来定义特定的用例。例如,对数据集进行分区的蓝图可以将 Amazon S3 源路径和目标路径作为参数。

AWS Glue 根据蓝图创建工作流running蓝图。蓝图运行会保存您提供的参数值,并用于跟踪创建工作流及其组件的进度和结果。排除工作流故障时,您可以查看蓝图运行以确定用于创建工作流的蓝图参数值。

要创建和查看工作流,您需要特定的 IAM 权限。有关建议的 IAM 策略,请参阅蓝图的数据分析员权限

您可以使用 AWS Glue 控制台、AWS Glue API 或 AWS Command Line Interface (AWS CLI) 从蓝图创建工作流。

从蓝图(控制台)创建工作流

  1. 打开 AWS Glue 控制台,网址为https://console.aws.amazon.com/glue/

    以拥有创建工作流权限的用户身份登录。

  2. 在导航窗格中,选择蓝图

  3. 选择一个蓝图,然后在操作菜单中,选择创建工作流

  4. 在存储库的从中创建工作流 <blueprint-name>页面上,输入以下信息:

    蓝图参数

    这些因蓝图设计不同而异。有关这些参数的疑问,请参阅开发人员。蓝图通常包含工作流名称的参数。

    IAM 角色

    AWS Glue 承担的创建工作流程及其组件的角色。角色必须具有创建和删除工作流、作业、爬网程序和触发器的权限。有关角色的建议策略,请参阅蓝图角色的权限

  5. 选择 Submit

    这些区域有:蓝图详细信息页面,并在底部显示蓝图运行的列表。

  6. 在蓝图运行列表中,检查最上面的蓝图运行以了解工作流创建状态。

    初始状态为 RUNNING。选择刷新按钮,直到状态变为SUCCEEDED或者FAILED

  7. 请执行下列操作之一:

    • 如果完成状态为SUCCEEDED,则可以转到工作流程页面上,选择新创建的工作流,然后运行它。在运行工作流之前,您可以查看设计图。

    • 如果完成状态为FAILED中,选择蓝图运行,然后在操作菜单中,选择查看以查看错误消息。