创建工作流 - Amazon Lake Formation
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 Amazon Web Services 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

创建工作流

在开始之前,请确保您已向角色授予所需的数据权限和数据位置权限。LakeFormationWorkflowRole. 这样,工作流程可以在数据目录中创建元数据表并将数据写入 Amazon S3 中的目标位置。有关更多信息,请参阅为工作流创建 IAM 角色Lake Formation 权限概述

从蓝图创建工作流

  1. 打开Amazon Lake Formation控制台https://console.aws.amazon.com/lakeformation/. 以数据湖管理员或具有数据工程师权限的用户身份登录。有关更多信息,请参阅 Lake Formation 角色角色和 IAM 权限参考

  2. 在导航窗格中,选择蓝图,然后选择使用蓝图.

  3. 在存储库的使用蓝图页面中,选择一个磁贴以选择蓝图类型。

  4. UNDER导入源中,指定数据源。

    如果要从 JDBC 源导入,请指定以下内容:

    • 数据库连接从列表中选择连接。使用创建其他连接Amazon Glue控制台。连接中的 JDBC 用户名和密码决定了工作流程有权访问的数据库对象。

    • 源数据路径— 输入<database>/<schema>/<table>要么<database>/<table>,具体取决于数据库产品。Oracle Database 和 MySQL 不支持路径中的架构。您可以用百分比 (%) 字符替换 <schema><table>。例如,对于系统标识符 (SID) 为的 Oracle 数据库orcl输入,输入orcl/%导入连接中指定的用户有权访问的所有表。

      重要

      此字段区分大小写。如果任何组件出现大小写不匹配,工作流程将失败。

      如果指定 MySQL 数据库,Amazon Glue默认情况下,ETL 使用 MySQL5 JDBC 驱动程序,因此本机不支持 MySQL8。您可以编辑 ETL 作业脚本以使用customJdbcDriverS3Path参数,如中所述JDBC connectionType 值中的Amazon Glue开发人员指南以使用支持 MySQL8 的其他 JDBC 驱动程序。

    如果要从日志文件导入,请确保为工作流指定的角色(“工作流角色”)具有访问数据源所需的 IAM 权限。例如,要导入Amazon CloudTrail日志中,用户必须拥有cloudtrail:DescribeTrailscloudtrail:LookupEvents创建工作流程时查看 CloudTrail 日志列表的权限,并且工作流角色必须对 Amazon S3 中的 CloudTrail 位置具有权限。

  5. 请执行下列操作之一:

    • 对于数据库快照蓝图类型,可选择通过指定一个或多个排除模式来标识要导入的数据子集。这些排除模式是 UNIX 风格glob模式。它们将存储为由工作流程创建的表的属性。

      有关可用排除模式的详细信息,请参阅包含和排除模式中的Amazon Glue开发人员指南.

    • 对于增量数据库蓝图类型,请指定以下字段。为要导入的每个表添加一行。

      表名称

      要导入的表。必须是小写字母。

      将密钥书签

      用逗号分隔的定义书签键的列名列表。如果为空,则使用主键来确定新数据。每列的大小写必须与数据源中定义的大小写匹配。

      注意

      只有在按顺序递增或递减(没有间隙)时,主键才有资格作为默认书签键。如果要使用主键作为书签键并且它有空白,则必须将主键列命名为书签键。

      书签订单

      在选择时升序,值大于书签值的行将被标识为新行。在选择时降序,值小于书签值的行将被标识为新行。

      分区方案

      (可选)分区键列列表,用斜杠 (/) 分隔。示例: year/month/day.

      
                控制台的增量数据部分包括以下字段:表名、书签键、书签顺序、分区方案。您可以添加或删除行,其中每行用于不同的表。

      有关更多信息,请参阅 。使用作业书签来跟踪已处理的数据中的Amazon Glue开发人员指南.

  6. UNDER导入目标中,指定目标数据库、目标 Amazon S3 位置和数据格式。

    确保工作流角色对数据库和 Amazon S3 目标位置具有所需的 Lake Formation 权限。

    注意

    目前,蓝图不支持在目标处加密数据。

  7. 选择导入频率。

    您可以指定cron与表达式Custom (自定义)选项。

  8. UNDER导入选项

    1. 输入工作流程名称。

    2. 对于角色,请选择角色LakeFormationWorkflowRole,你在中创建为工作流创建 IAM 角色.

    3. 也可以指定表前缀。前缀在工作流创建的数据目录表的名称之前。

  9. 选择Create,然后等待控制台报告工作流已成功创建。

    提示

    您收到以下错误消息吗?

    User: arn:aws:iam::<account-id>:user/<username> is not authorized to perform: iam:PassRole on resource:arn:aws:iam::<account-id>:role/<rolename>...

    如果是这样,请检查是否更换了<account-id>带有效期限Amazon所有保单中的账号。