将 Athena 连接到 Apache Hive 元数据仓 - Amazon Athena
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 AWS 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

将 Athena 连接到 Apache Hive 元数据仓

要将 Athena 连接到 Apache Hive 元存储,您必须创建和配置 Lambda 函数。对于基本实现,您可以从 Athena 管理控制台开始执行所有必需步骤。

注意

以下过程要求您有权为 IAM 函数创建自定义 Lambda 角色。如果您没有权限创建自定义角色,则可以使用 Athena 引用实现单独创建 Lambda 函数,然后使用 AWS Lambda 控制台为该函数选择现有 IAM 角色。有关更多信息,请参阅使用现有 Athena 执行角色将 IAM 连接到 Hive 元存储

将 Athena 连接到 Hive 元数据仓

  1. https://console.amazonaws.cn/athena/ 打开 Athena 控制台。

  2. 选择 Connect data source (连接数据源)

    
                        选择 Connect data source (连接数据源)。
  3. Connect data source (连接数据源) 页面上的 Choose a metadata catalog (择元数据目录) 中,选择 Apache Hive metastore (Apache Hive 元数据仓)

    
                        选择 Apache Hive metastore (Apache Hive 元存储)。
  4. 选择 Next (下一步)

  5. Connection details (连接详细信息) 页面上,对于 Lambda function (Lambda 函数),选择 Configure new AWS Lambda function (配置新的 Lambda 函数)

    
                        选择 Configure new AWS Lambda function (配置新的 Lambda 函数)。

    此时将在 控制台中打开 AthenaHiveMetastoreFunctionAWS Lambda 页面。

    
                        控制台中的 AthenaHiveMetastoreFunction 页面。AWS Lambda
  6. Application details 页面的右下角,选择 I acknowledge that this app creates custom IAM roles,然后选择 Deploy

    
                        从 Lambda 控制台部署 AWS Lambda 函数应用程序。

    部署完成后,您的 函数将显示在 Lambda 应用程序列表中。现在,Hive 元存储函数已部署到您的账户,您可以配置 Athena 以使用它。

    
                        控制台中的 Lambda Hive 元存储应用程序。AWS Lambda
  7. 返回到 控制台中 Data Sources (数据源) 选项卡的 Connection details (连接详细信息)Athena 页面。

  8. 选择 Choose function (选择 Lambda 函数) 旁边的 LambdaRefresh (刷新) 图标。刷新可用函数的列表将导致新创建的函数显示在列表中。

    
                        选择 Refresh。
  9. 现在您的 Lambda 函数可用,请选择它。

    
                        选择您创建的 Lambda 函数。

    一个新的 Lambda 函数 ARN 条目显示 Lambda 函数的 ARN。

    
                        Lambda 函数 ARN。
  10. 对于 Catalog name (目录名称),输入您在 SQL 查询中用于引用数据源的唯一名称。名称的长度最多可包含 127 个字符,且在您的账户中必须是唯一的。它在创建后即无法更改。有效字符包括 a-z、A-Z、0-9、_(下划线)、@ 符号和 -(连字符)。名称 awsdatacataloghivejmxsystem 是 Athena 预留的,无法用于自定义目录名称。

  11. (可选)对于 Description (描述),输入描述数据目录的文本。

  12. 选择 Connect。这会将 Athena 连接到您的 Hive 元存储目录。

    Data sources (数据源) 页面显示已连接目录的列表,包括您刚刚连接的目录。所有已注册的目录对同一 AWS 账户中的所有用户可见。

    
                        Data sources (数据源) 页面显示您连接的目录。
  13. 您现在可以使用指定的 Catalog name (目录名称) 以在 SQL 查询中引用 Hive 元数据仓。在 SQL 查询中,使用以下示例语法,并将 hms-catalog-1 替换为您之前指定的目录名称。

    SELECT * FROM hms-catalog-1.CustomerData.customers;
  14. 要查看、编辑或删除您创建的数据源,请参阅管理数据源