将数据目录连接到 Hive 元存储的先决条件 - Amazon Lake Formation
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

将数据目录连接到 Hive 元存储的先决条件

要将 Amazon Glue Data Catalog 连接到外部 Apache Hive 元数据仓并设置数据访问权限,您需要完成以下要求:

注意

我们建议 Lake Formation 管理员部署 Amazon SAM 应用程序,并且只有特权用户才能使用 Hive 元数据仓连接来创建相应的联合数据库。

  1. 创建 IAM 角色。
    部署 Amazon SAM 应用程序
    • 创建具有部署资源(Lambda 函数 Amazon API Gateway、IAM 角色和 Amazon Glue 连接)所需的必要权限的角色,以创建与 Hive 元数据仓的连接。

    创建联合数据库

    资源需要以下权限:

    • glue:CreateDatabase on resource arn:aws:glue:region:account-id:database/gluedatabasename

    • glue:PassConnection on resource arn:aws:glue:region:account-id:connection/hms_connection

  2. 在 Lake Formation 中注册 Amazon S3 位置。

    要使用 Lake Formation 管理和保护数据湖中的数据,您必须在 Lake Formation 中注册含有 Hive 元存储中表数据的 Amazon S3 位置。通过这样做,Lake Formation可以向Athena、Redshift Spectrum和Amazon EMR等 Amazon 分析服务机构出售证书。

    有关注册 Amazon S3 位置的更多信息,请参阅向数据湖添加 Amazon S3 位置

    注册 Amazon S3 位置时,请选中 “启用数据目录联合” 复选框以允许 Lake Formation 代入访问联合数据库中的表的角色。

    有关在 Lake Formation 中注册数据位置的更多信息,请参阅为您的数据湖配置 Amazon S3 位置

  3. 使用正确的亚马逊 EMR 版本。

    要将 Amazon EMR 与联合 Hive 元数据仓数据库配合使用,您需要拥有 Hive 3.x 或更高版本和亚马逊 EMR 版本 6.x 或更高版本。