常见问题:升级到 Amazon Glue Data Catalog
如果在某区域中提供 Amazon Glue 之前,您在该区域中使用 Athena 创建了数据库和表,则元数据存储在一个仅 Athena 和 Amazon Redshift Spectrum 可以访问的 Athena 托管数据目录中。要将 Amazon Glue 与 Athena 和 Redshift Spectrum 一起使用,您必须升级到 Amazon Glue Data Catalog。
为什么我应该升级到 Amazon Glue Data Catalog?
Amazon Glue 是一项完全托管的提取、转换和加载 (ETL) 服务。它有三个主要组件:
-
Amazon Glue 爬网程序可以自动扫描数据源,识别数据格式并推断架构。
-
完全托管的 ETL 服务能让您转换数据并将其移动到各个目标。
-
Amazon Glue Data Catalog 存储有关数据库和表的元数据信息,并指向 Amazon S3 中的数据存储或 JDBC 兼容的数据存储。
有关更多信息,请参阅 Amazon Glue 概念。
升级到 Amazon Glue Data Catalog具有以下优势。
统一的元数据存储库
Amazon Glue Data Catalog提供了一个跨各种数据源和数据格式的统一元数据存储库。通过它,可即时与 Amazon Simple Storage Service (Amazon S3)
有关更多信息,请参阅填充 Amazon Glue Data Catalog。
自动架构和分区识别
Amazon Glue 爬网程序自动对您的数据源进行爬网,识别数据格式,并建议架构和转换。爬网程序可以帮助自动创建表和自动加载您可以使用 Athena、Amazon EMR 和 Redshift Spectrum 查询的分区。您还可以使用 Amazon Glue API、软件开发工具包和 Amazon CLI 直接创建表和分区。
有关更多信息,请参阅使用爬网程序编录表。
易于构建的管道
Amazon Glue ETL 引擎生成完全可自定义、可重用和可移植的 Python 代码。您可以使用您喜欢的 IDE 或笔记本编辑代码,并使用 GitHub 与他人共享它。在 ETL 作业准备就绪后,您可以安排该作业在 Amazon Glue 的完全托管的、横向扩展的 Spark 基础设施上运行。Amazon Glue 将处理运行 ETL 作业所需的资源的预置、配置和扩展,从而使您能够将 ETL 与工作流程紧密集成。
有关更多信息,请参阅《Amazon Glue 开发人员指南》中的编写 Amazon Glue 任务。
Amazon Glue 有单独收费吗?
是。如果使用 Amazon Glue,您需要为存储和访问在 Amazon Glue Data Catalog中存储的元数据支付每月费率,为 Amazon Glue ETL 作业和爬网程序运行时支付每小时费率(按秒计费),为每个预置的开发终端节点支付每小时费率(按秒计费)。Amazon Glue Data Catalog最多可让您免费存储一百万个对象。如果您存储一百万个以上的对象,将需要为超过一百万的每 100,000 个对象支付 1 美元。Amazon Glue Data Catalog中的对象为表、分区或数据库。有关更多信息,请参阅 Amazon Glue 定价
升级流程常见问题
谁可以执行升级?
您需要使用一个允许升级操作的策略语句将客户托管的 IAM 策略附加到执行迁移的用户。此额外检查可防止有人意外迁移整个账户的目录。有关更多信息,请参阅步骤 1 – 允许用户执行升级。
我的用户将托管式策略与 Athena 和 Redshift Spectrum 一起使用。升级需要采取哪些步骤?
Athena 托管的策略已自动用允许 Athena 用户访问 Amazon Glue 的新策略操作进行了更新。但您仍须显式为执行升级的用户允许升级操作。为防止意外升级,托管策略不允许此操作。
如果我不升级会怎样?
如果您不升级,则无法将 Amazon Glue 功能与您在 Athena 中创建的数据库和表结合使用,反之亦然。您可以单独使用这些服务。在此期间,Athena 和 Amazon Glue 都会阻止您创建在其他数据目录中具有相同名称的数据库或表。这可在您执行升级时防止名称冲突。
为什么我需要向 Athena 用户添加 Amazon Glue 策略?
在您升级之前,Athena 管理数据目录,因此必须允许 Athena 操作,您的用户才能执行查询。在升级到 Amazon Glue Data Catalog之后,必须允许用户执行 Amazon Glue 操作。请记住,Athena 的托管策略已更新为允许所需的 Amazon Glue 操作,因此如果您使用托管策略,则不需要执行任何操作。
如果我不允许对 Athena 用户使用 Amazon Glue 策略会怎样?
如果您升级到 Amazon Glue Data Catalog,并且不更新用户的客户托管或内联 IAM 策略,则由于不允许用户在 Amazon Glue 中执行操作,因此 Athena 查询将失败。有关要允许的特定操作,请参阅步骤 2 - 更新与 Athena 用户关联的客户托管式/内联策略。
升级过程中是否存在数据丢失的风险?
否。
我的数据在此升级过程中是否也会移动?
否。迁移仅影响元数据。