常见问题:升级到 AWS Glue 数据目录 - Amazon Athena
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 AWS 服务入门

如果我们为英文版本指南提供翻译,那么如果存在任何冲突,将以英文版本指南为准。在提供翻译时使用机器翻译。

常见问题:升级到 AWS Glue 数据目录

如果在某区域中提供 AWS Glue 之前,您在该区域中使用 Athena 创建了数据库和表,则元数据存储在一个仅 Athena 和 Amazon Redshift Spectrum 可以访问的 Athena 托管数据目录中。要将 AWS Glue 与 Athena 和 Redshift Spectrum 结合使用,您必须升级到 AWS Glue 数据目录。

为什么我应该升级到 AWS Glue 数据目录?

AWS Glue 是一项完全托管的提取、转换和加载 (ETL) 服务。它有三个主要组件:

  • AWS Glue 爬网程序可以自动扫描数据源,识别数据格式并推断架构。

  • 完全托管的 ETL 服务能让您转换数据并将其移动到各个目标。

  • AWS Glue 数据目录存储有关数据库和表的元数据信息,并指向 Amazon S3 中的数据存储或 JDBC 兼容的数据存储。

有关更多信息,请参阅 AWS Glue 概念

升级到 AWS Glue 数据目录具有以下优势。

统一的元数据存储库

AWS Glue 数据目录提供了一个跨各种数据源和数据格式的统一元数据存储库。通过它,可即时与 Amazon Simple Storage Service (Amazon S3)Amazon Relational Database Service (Amazon RDS)Amazon RedshiftAmazon Redshift Spectrum、Athena、Amazon EMR 以及任何与 Apache Hive 元存储兼容的应用程序集成。您可以一次性创建表定义并跨引擎进行查询。

有关更多信息,请参阅填充 AWS Glue 数据目录

自动架构和分区识别

AWS Glue 爬网程序自动对您的数据源进行爬网,识别数据格式,并建议架构和转换。爬网程序可以帮助自动创建表和自动加载您可以使用 Athena、Amazon EMR 和 Redshift Spectrum 查询的分区。您还可以使用 AWS Glue API、开发工具包和 AWS CLI 直接创建表和分区。

有关更多信息,请参阅使用爬网程序编录表

易于构建的管道

AWS Glue ETL 引擎生成完全可自定义、可重用和可移植的 Python 代码。您可以使用您喜欢的 IDE 或笔记本编辑代码,并使用 GitHub 与他人共享它。在 ETL 作业准备就绪后,您可以安排该作业在 AWS Glue 的完全托管的、横向扩展的 Spark 基础设施上运行。AWS Glue 将处理运行 ETL 作业所需的资源的预置、配置和扩展,从而使您能够将 ETL 与工作流程紧密集成。

有关更多信息,请参阅 AWS Glue 开发人员指南 中的编写 AWS Glue 任务

AWS Glue 有单独收费吗?

是。如果使用 AWS Glue,您需要为存储和访问在 AWS Glue 数据目录中存储的元数据支付每月费率,为 AWS Glue ETL 作业和爬网程序运行时支付每小时费率(按秒计费),为每个预置的开发终端节点支付每小时费率(按秒计费)。AWS Glue 数据目录最多可让您免费存储一百万个对象。如果您存储一百万个以上的对象,将需要为超过一百万的每 100,000 个对象支付 1 美元。AWS Glue 数据目录中的对象为表、分区或数据库。有关更多信息,请参阅 AWS Glue 定价

升级流程常见问题

谁可以执行升级?

您需要使用一个允许升级操作的策略语句将客户托管的 IAM 策略附加到执行迁移的用户。此额外检查可防止有人意外迁移整个账户的目录。有关更多信息,请参阅 步骤 1 – 允许用户执行升级

我的用户将托管策略与 Athena 和 Redshift Spectrum 结合使用。升级需要采取哪些步骤?

Athena 托管的策略已自动用允许 Athena 用户访问 AWS Glue 的新策略操作进行了更新。但您仍须显式为执行升级的用户允许升级操作。为防止意外升级,托管策略不允许此操作。

如果我不升级会怎样?

如果您不升级,则无法将 AWS Glue 功能与您在 Athena 中创建的数据库和表结合使用,反之亦然。您可以单独使用这些服务。在此期间,Athena 和 AWS Glue 都会阻止您创建在其他数据目录中具有相同名称的数据库或表。这可在您执行升级时防止名称冲突。

为什么我需要向 Athena 用户添加 AWS Glue 策略?

在您升级之前,Athena 管理数据目录,因此必须允许 Athena 操作,您的用户才能执行查询。在升级到 AWS Glue 数据目录之后,必须允许用户执行 AWS Glue 操作。请记住,Athena 的托管策略已更新为允许所需的 AWS Glue 操作,因此如果您使用托管策略,则不需要执行任何操作。

如果我不允许对 Athena 用户使用 AWS Glue 策略会怎样?

如果您升级到 AWS Glue 数据目录,并且不更新用户的客户托管或内联 IAM 策略,则由于不允许用户在 AWS Glue 中执行操作,因此 Athena 查询将失败。有关允许的特定操作的信息,请参阅步骤 2 – 更新与 Athena 用户关联的客户托管/内联策略

升级过程中是否存在数据丢失的风险?

否。

我的数据在此升级过程中是否也会移动?

否。迁移仅影响元数据。