连接到数据源 - Amazon Athena
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 AWS 服务入门

如果我们为英文版本指南提供翻译,那么如果存在任何冲突,将以英文版本指南为准。在提供翻译时使用机器翻译。

连接到数据源

您可以使用 Amazon Athena 查询数据集中的不同位置和以不同格式存储的数据。此数据集可能采用 CSV、JSON、Avro、Parquet 或其他格式。

您在 Athena 中用于运行查询的表格和数据库基于元数据。元数据是与数据集中的底层数据有关的数据。元数据描述数据集的方式称为架构。例如,表名称、表中的列名称以及每列的数据类型都是架构,保存为元数据,用于描述底层数据集。在 Athena 中,我们将用于整理元数据的系统称为数据目录元数据仓。数据集和用于描述它的数据目录的组合称为数据源

元数据与底层数据集的关系取决于您所用的数据源类型。MySQL、PostgreSQL 和 SQL Server 等关系数据源将元数据与数据集紧密集成。在这些系统中,在写入数据时通常会写入元数据。其他数据源(如使用 Hive 构建的数据源)允许您在读取数据集时即时定义元数据。数据集可以采用多种格式,例如 CSV、JSON、Parquet 或 Avro。

Athena 原生支持 AWS Glue 数据目录。AWS Glue 数据目录 是在其他数据集和数据源(如 Amazon S3、Amazon Redshift 和 Amazon DynamoDB)之上构建的数据目录。您还可以使用各种连接器将 Athena 连接到其他数据源。