创建工作流程 - AWS Lake Formation
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 AWS 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

创建工作流程

开始之前,请确保您已向角色授予所需的数据权限和数据位置权限 LakeFormationWorkflowRole。这样工作流程就能在 Data Catalog 并将数据写入到 Amazon S3. 有关更多信息,请参阅 创建 IAM 工作流的角色授予 Lake Formation 权限

如何从蓝图创建工作流程

  1. 访问 https://console.amazonaws.cn/lakeformation/,打开 AWS Lake Formation 控制台。以数据湖管理员或具有数据工程师权限的用户身份登录。有关更多信息,请参阅Lake Formation 人物和 IAM 权限参考

  2. 在导航窗格中,选择 蓝图,然后选择 使用蓝图.

  3. 使用蓝图 页面中,请选择一个图块以选择蓝图类型。

  4. 低于 导入来源,请指定数据源。

    如果您从JDBC源导入,请指定以下内容:

    • 数据库连接–从列表中选择一个连接。使用创建其他连接 AWS Glue 控制台。连接中的JDBC用户名和密码决定了工作流程有权访问的数据库对象。

    • 源数据路径–输入 <database>/<schema>/<table><database>/<table>,具体取决于数据库产品。Oracle数据库和 MySQL 在路径中不支持框架。您可以用百分比(%)字符替换 <schema><table>。例如,对于系统标识符(SID)为的Oracle数据库 orcl,输入 orcl/% 导入连接中名为的用户有权访问的所有表。

      重要

      此字段区分大小写。如果任何组件存在案例不匹配,则工作流程将失败。

    如果要从日志文件导入,请确保您为工作流指定的角色(“工作流角色”)具有必需的 IAM 访问数据源的权限。例如,导入 AWS CloudTrail 日志,用户必须具有 cloudtrail:DescribeTrailscloudtrail:LookupEvents 权限,以查看 CloudTrail 日志,并且工作流角色必须具有 CloudTrail 位置 Amazon S3.

  5. 执行下列操作之一:

    • 对于 数据库快照 蓝图类型,可选地通过指定一个或多个排除模式来识别要导入的数据子集。这些排除图案为Unix样式 glob 图案。它们作为工作流程创建的表的属性存储。

      有关可用排除模式的详细信息,请参阅 包括和排除模式AWS Glue 开发人员指南.

    • 对于 增量数据库 蓝图类型,请指定以下字段。为每个表添加一行以导入。

      表名称

      用于导入的表。必须全部为小写。

      书签键

      定义书签键的逗号分隔列名称列表。如果为空,则使用主键确定新数据。每列的案例必须与数据源中定义的案例匹配。

      注意

      只有当主键连续递增或递减(无间隙)时,它才作为默认书签键。如果要将主键用作书签键,并且它有间隙,则必须将主键列命名为书签键。

      书签顺序

      当您选择 升序,值大于书签值的行将标识为新行。当您选择 降序,值小于书签值的行将标识为新行。

      分区方案

      (可选)分区键列列表,由斜线(/)分隔。示例: year/month/day.

      
                控制台的增量数据部分包括以下字段: 表格名称、书签键、书签顺序、分区方案。您可以添加或删除行,其中每行用于不同的表。

      有关更多信息,请参阅 使用工作书签跟踪已处理数据AWS Glue 开发人员指南.

  6. 低于 导入目标,指定目标数据库,目标 Amazon S3 位置和数据格式。

    确保工作流角色具有所需的 Lake Formation 数据库权限和 Amazon S3 目标位置。

    注意

    目前,蓝图不支持在目标处加密数据。

  7. 选择导入频率。

    您可以指定 cron 表达式 自定义 选项。

  8. 低于 导入选项:

    1. 输入工作流名称。

    2. 对于角色,请选择角色 LakeFormationWorkflowRole,您创建于 创建 IAM 工作流的角色.

    3. (可选)指定表前缀。前缀预先设置为 Data Catalog 工作流程创建的表。

  9. 选择 创建,并等待控制台报告工作流已成功创建。

    提示

    您收到以下错误消息吗?

    User: arn:aws:iam::<account-id>:user/<username> is not authorized to perform: iam:PassRole on resource:arn:aws:iam::<account-id>:role/<rolename>...

    如果是,请检查您是否更换了 <account-id> 在所有策略中使用有效的AWS帐号。