与 AWS Glue 集成 - Amazon Athena
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 AWS 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

与 AWS Glue 集成

AWS Glue 是一个完全托管的 ETL(提取、转换和加载)服务,可对数据进行分类、清理数据、丰富数据并在各种数据存储之间可靠地移动数据。AWS Glue 爬网程序会自动从数据集推理数据库和表架构,并将关联的元数据存储在 AWS Glue 数据目录 中。

Athena 原生支持查询在 AWS Glue 数据目录 中注册的数据集和数据源。在 Athena 中运行数据操作语言 (DML) 查询且将 Data Catalog 作为源时,使用 Data Catalog 架构从基础数据集中获取见解。运行数据定义语言 (DDL) 查询时,您定义的架构将在 AWS Glue 数据目录 中定义。在 Athena 内,您还可以在数据源上运行 AWS Glue 爬网程序以在 AWS Glue 数据目录 中创建架构。

在支持 AWS Glue 的区域中,Athena 将 AWS Glue 数据目录用作中央位置来存储和检索整个 AWS 账户中的表元数据。查询引擎需要表元数据来指示它在何处读取数据、如何读取数据以及处理数据所需的其他信息。AthenaAWS Glue Data Catalog 数据目录跨各种数据源和数据格式提供统一的元数据存储库,从而不仅与 Athena 集成,还与 Amazon S3、Amazon RDS、Amazon Redshift、Amazon Redshift Spectrum、Amazon EMR 以及任何与 Apache Hive 元存储兼容的应用程序集成。

有关 AWS Glue 数据目录的更多信息,请参阅 AWS Glue 开发人员指南 中的填充 AWS Glue 数据目录。有关提供 AWS Glue 的区域的列表,请参阅 AWS 一般参考中的区域和终端节点

AWS Glue 需要单独付费。有关更多信息,请参阅 AWS Glue 定价AWS Glue 有单独收费吗? 有关将 AWS Glue 与 Athena 结合使用的优势的更多信息,请参阅为什么要升级到 AWS Glue 数据目录?