第 8 步:使用蓝图创建工作流 - Amazon Lake Formation
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

第 8 步:使用蓝图创建工作流

Amazon Lake Formation 工作流会生成 Amazon Glue 作业、爬网程序和触发器,以用于发现数据并将其摄取到您的数据湖中。您可以基于其中一个预定义的 Lake Formation 蓝图创建工作流。

  1. 在 Lake Formation 控制台的导航窗格中,选择蓝图,然后选择使用蓝图

  2. 使用蓝图页面的蓝图类型下,选择数据库快照

  3. 导入源下的数据库连接中,选择您刚刚创建的连接 datalake-tutorial,或者为您的数据来源选择一个现有连接。

  4. 对于源数据路径,以 <database>/<schema>/<table> 形式输入从中摄取数据的路径。

    您可以用百分比 (%) 字符替换架构或表。对于支持架构的数据库,请输入 <database>/<schema>/% 以匹配 <database><schema> 内的所有表。Oracle Database 和 MySQL 不支持路径中的架构,所以请改为输入 <database>/%。对于 Oracle 数据库,<database> 是系统标识符 (SID)。

    例如,如果 Oracle 数据库的 SID 为 orcl,则输入 orcl/% 以匹配在 JDCB 连接中指定的用户有权访问的所有表。

    重要

    此字段区分大小写。

  5. 导入目标下,指定以下参数:

    目标数据库 lakeformation_tutorial
    目标存储位置 s3://<yourName>-datalake-tutorial
    Data format(数据格式) (选择 Parquet 或 CSV)
  6. 对于导入频率,选择按需运行

  7. 导入选项下,指定以下参数:

    工作流名称 lakeformationjdbctest
    IAM 角色 LakeFormationWorkflowRole
    表前缀 jdbctest
    注意

    必须小写。

  8. 选择创建,然后等待控制台报告已成功创建工作流。

    提示

    您是否收到了以下错误消息?

    User: arn:aws:iam::<account-id>:user/<datalake_administrator_user> is not authorized to perform: iam:PassRole on resource:arn:aws:iam::<account-id>:role/LakeFormationWorkflowRole...

    如果收到了,请检查您将是否将数据湖管理员用户的内联策略中的 <account-id> 替换为了有效的 Amazon 帐号。