常见问题:升级到Amazon Glue Data Catalog - Amazon Athena
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 Amazon Web Services 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

常见问题:升级到Amazon Glue Data Catalog

如果您在之前的区域中使用 Athena 创建了数据库和表Amazon Glue,元数据存储在一个仅 Athena 和 Amazon Redshift Spectrum 可以访问 Athena 典托管数据目录中。使用Amazon Glue与 Athena 和 Redshift Spectrum 一起使用,则必须升级到Amazon Glue Data Catalog。

为什么我应该升级到 Amazon Glue Data Catalog?

Amazon Glue 是一项完全托管的提取、转换和加载 (ETL) 服务。它有三个主要组件:

  • Amazon Glue 爬网程序可以自动扫描数据源,识别数据格式并推断架构。

  • 完全托管的 ETL 服务能让您转换数据并将其移动到各个目标。

  • 这些区域有:Amazon Glue Data Catalog存储有关数据库和表的元数据信息,并指向 Amazon S3 或 JDBC 兼容的数据存储中的数据。

有关更多信息,请参阅 Amazon Glue 概念

升级到 Amazon Glue Data Catalog具有以下优势。

统一的元数据存储库

Amazon Glue Data Catalog提供了一个跨各种数据源和数据格式的统一元数据存储库。它提供了开箱即用的与Amazon Simple Storage Service (Amazon S3)Amazon Relational Database Service (Amazon RDS)Amazon RedshiftAmazon Redshift Spectrum, Athena,Amazon EMR以及任何与 Apache Hive 元数据仓兼容的应用程序。您可以一次性创建表定义并跨引擎进行查询。

有关更多信息,请参阅填充 Amazon Glue Data Catalog

自动架构和分区识别

Amazon Glue 爬网程序自动对您的数据源进行爬网,识别数据格式,并建议架构和转换。爬网程序可以帮助自动创建表和自动加载您可以使用 Athena、Amazon EMR 和 Redshift Spectrum 查询的分区。您还可以使用直接创建表和分区。Amazon GlueAPI、开发工具包和Amazon CLI。

有关更多信息,请参阅使用爬网程序编录表

易于构建的管道

Amazon Glue ETL 引擎生成完全可自定义、可重用和可移植的 Python 代码。您可以使用您喜欢的 IDE 或笔记本编辑代码,并使用 GitHub 与他人共享它。在 ETL 作业准备就绪后,您可以安排该作业在 Amazon Glue 的完全托管的、横向扩展的 Spark 基础设施上运行。Amazon Glue 将处理运行 ETL 作业所需的资源的预置、配置和扩展,从而使您能够将 ETL 与工作流程紧密集成。

有关更多信息,请参阅 。编写Amazon Glue作业中的Amazon Glue开发人员指南

Amazon Glue 有单独收费吗?

是。如果使用 Amazon Glue,您需要为存储和访问在 Amazon Glue Data Catalog中存储的元数据支付每月费率,为 Amazon Glue ETL 作业和爬网程序运行时支付每小时费率(按秒计费),为每个预置的开发终端节点支付每小时费率(按秒计费)。Amazon Glue Data Catalog最多可让您免费存储一百万个对象。如果您存储一百万个以上的对象,将需要为超过一百万的每 100,000 个对象支付 1 美元。Amazon Glue Data Catalog中的对象为表、分区或数据库。有关更多信息,请参阅 Amazon Glue 定价

升级流程常见问题

谁可以执行升级?

您需要使用一个允许升级操作的策略语句将客户托管的 IAM 策略附加到执行迁移的用户。此额外检查可防止有人意外迁移整个账户的目录。有关更多信息,请参阅 步骤 1 – 允许用户执行升级

我的用户将托管策略与 Athena 和 Redshift Spectrum 一起使用。升级需要采取哪些步骤?

Athena 托管的策略已自动用新的允许 Athena 用户访问的策略操作进行了更新。Amazon Glue。但您仍须显式为执行升级的用户允许升级操作。为防止意外升级,托管策略不允许此操作。

如果我不升级会怎样?

如果您不升级,您便无法使用Amazon Glue功能与您在 Athena 中创建的数据库和表结合使用,反之亦然。您可以单独使用这些服务。在这段时间内,Athena 和Amazon Glue都会阻止您创建在其他数据目录中具有相同名称的数据库或表。这可在您执行升级时防止名称冲突。

为什么我需要添加Amazon Glue政策给 Athena 用户?

在您升级之前,Athena 管理数据目录,因此必须允许 Athena 操作,您的用户才能执行查询。在升级到 Amazon Glue Data Catalog之后,必须允许用户执行 Amazon Glue 操作。请记住,Athena 的托管策略已更新为允许所需的Amazon Glue操作,因此如果您使用托管策略,则不需要执行任何操作。

如果我不允许会怎样Amazon GlueAthena 用户的政策?

如果升级到Amazon Glue Data Catalog并且不更新用户的客户托管或内联 IAM 策略,则 Athena 查询将失败,因为不允许用户在Amazon Glue。有关允许的特定操作的信息,请参阅步骤 2 – 更新与 Athena 用户关联的客户托管/内联策略

升级过程中是否存在数据丢失的风险?

否。

我的数据在此升级过程中是否也会移动?

否。迁移仅影响元数据。