使用 AWS Serverless Application Repository 部署 Hive 数据源连接器 - Amazon Athena
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 AWS 服务入门

如果我们为英文版本指南提供翻译,那么如果存在任何冲突,将以英文版本指南为准。在提供翻译时使用机器翻译。

使用 AWS Serverless Application Repository 部署 Hive 数据源连接器

您还可以使用 AWS Serverless Application Repository 部署适用于 Hive 的 Athena 数据源连接器。选择要使用的连接器,提供连接器所需的参数,然后将连接器部署到您的账户。

使用 AWS Serverless Application Repository 将适用于 Hive 的数据源连接器部署到您的账户

  1. 登录 AWS 管理控制台并打开 Serverless App Repository (无服务器应用程序存储库)

  2. 在导航窗格中,选择 Available applications (可用应用程序)

  3. 选择 Show apps that create custom IAM roles or resource policies (显示创建自定义 IAM 角色或资源策略的应用) 选项。

  4. 在搜索框中,键入下列连接器之一的名称。这两个应用程序具有相同的功能,仅在实施方面存在差异。您可以使用二者之一创建将 Athena 连接到 Hive 元存储的 Lambda 函数。

    • AthenaHiveMetastoreFunction – Uber Lambda 函数 .jar 文件。

    • AthenaHiveMetastoreFunctionWithLayer – Lambda 层和 thin Lambda 函数 .jar 文件。

  5. 选择连接器的名称。

    
                    选择适用于 Hive 的 Athena 数据源连接器的名称。
  6. 在 Lambda 函数的 Application details (应用程序详细信息) 页面上,配置该函数的参数,这些参数包括:

    • Lambda function name (Lambda 函数名称):提供函数的名称。例如,myHiveMetastore

    • Lambda execution role (Lambda 执行角色) – 选择 IAM 角色或单击 Create a new role (创建新角色) 以创建角色。

    • Function code (函数代码) – Lambda 函数 JAR 文件在 Amazon S3 中的位置。使用默认值或输入自定义 JAR 文件的位置。

    • Lambda handler (Lambda 处理程序) – 实现 Hive 连接器的 JAR 文件中的方法。使用默认值,或将其替换为自定义代码中的处理程序。

    • Hive metastore (HMS) URI (Hive 元数据仓 (HMS) URI) – 输入您的 Hive 元数据仓主机的名称,该主机在端口 9083 使用 Thrift 协议,语法为 thrift://<host_name>:9083

    • Spill location in S3 (S3 中的溢出位置) – 在此账户中指定 Amazon S3 位置,以便在 Lambda 函数响应大小超过 4MB 时保存溢出元数据。

    • Virtual Private Cloud (VPC) – 选择包含您的 Hive 元存储的 VPC。

    • Subnets (子网) – 选择 Lambda 用于设置 VPC 配置的 VPC 子网。

    • Security Groups (安全组) – 选择 Lambda 用于设置 VPC 配置的 VPC 安全组。

    • Memory (内存) – 指定从 128MB 到 3008MB 的值。Lambda 函数分配与您配置的内存量成比例的 CPU 周期。

    • Timeout (超时) – 指定从 1 秒到 15 分钟 59 秒的值。默认值为 3 秒。

  7. Application details (应用程序详细信息) 页面右下角,选择 Deploy (部署)。 部署完成后,该函数将显示在 Lambda 控制台中。