2019 年 11 月 26 日 - Amazon Athena
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 AWS 服务入门

如果我们为英文版本指南提供翻译,那么如果存在任何冲突,将以英文版本指南为准。在提供翻译时使用机器翻译。

2019 年 11 月 26 日

发布时间:2019 年 12 月 17 日

Amazon Athena 添加了如下支持:跨关系数据源、非关系数据源、对象数据源和自定义数据源运行 SQL 查询;在 SQL 查询、用户定义的函数 (UDF) 中调用机器学习模型(预览版);通过 Amazon Athena 使用 Apache Hive 元数据仓作为元数据目录(预览版),以及四个附加查询相关指标。

联合 SQL 查询

使用联合 SQL 查询跨关系数据源、非关系数据源、对象数据源和自定义数据源运行 SQL 查询。

现在,您可以使用 Athena 的联合查询来扫描存储在关系数据源、非关系数据源、对象数据源和自定义数据源中的数据。通过联合查询,您可以通过提交一个 SQL 查询,扫描来自本地运行或托管在云中的多个来源的数据。

由于如下原因,对分布在应用程序之间的数据进行分析可能很复杂且耗时:

  • 分析所需的数据通常分布在关系、键值、文档、内存、搜索、图形、对象、时间序列和分类账数据存储中。

  • 为了分析跨这些来源的数据,分析师需要构建复杂的管道,来将这些数据提取、转换和加载到数据仓库中,以便可以进行查询。

  • 访问各种来源中的数据需要学习新的编程语言和数据访问构造。

Athena 中的联合 SQL 查询允许用户在不移动数据的情况下进行查询,消除了这种复杂性。分析师可以使用熟悉的 SQL 构造跨多个数据源 JOIN 数据以进行快速分析,并将结果存储在 Amazon S3 中以备随后使用。

数据源连接器

Athena 使用处理联合查询 Athena 运行的数据源接头 AWS Lambda. 使用这些开源数据源连接器在 Athena 中跨 Amazon DynamoDBApache HBaseAmazon Document DBAmazon RedshiftAmazon CloudWatchAmazon CloudWatch MetricsJDBC 兼容的关系数据库(如 MySQL 和 Apache 2.0 许可证下的 PostgreSQL)运行联合 SQL 查询。

自定义数据源连接器

使用 Athena 查询联盟SDK开发者可以构建任何数据源的接头,以实现 Athena 以针对该数据源运行查询。 AthenaQueryFederation接头将联合查询的优点扩展至 AWS 提供的接头。由于连接器在 AWS Lambda 上运行,因此您不必管理基础设施或计划扩展以应对尖峰需求。

预览可用性

Athena 联合查询在 美国东部(弗吉尼亚北部)地区 中为预览版。

后续步骤

在 SQL 查询中调用机器学习模型

您现在可以调用机器学习模型,以直接从您的 Athena 查询中获得推理。在 SQL 查询中使用机器学习模型可让复杂的任务(例如异常检测、客户群分析和销售预测)变得像在 SQL 查询中调用函数一样简单。

ML 模型

您可以使用 Amazon SageMaker 提供的十几种内置机器学习算法,训练自己的模型或从 AWS Marketplace 查找和订阅模型包并部署在 Amazon SageMaker Hosting Services 上。不需要其他设置。您可以通过 Athena 控制台、Athena API 和 Athena 的预览 JDBC 驱动程序在 SQL 查询中调用这些 ML 模型。

预览可用性

Athena 的 ML 功能目前在 美国东部(弗吉尼亚北部)地区 中处于预览版状态。

后续步骤

用户定义函数 (UDF)(预览版)

您可以编写自定义标量函数,并在您的 Athena 查询中调用它们。您可以使用 Athena Query Federation SDK 在 Java 中编写 UDF。当UDF用于提交到的 Athena,它被调用并运行 AWS Lambda. UDF 可以同时在 SQL 查询的 SELECTFILTER 子句中使用。您可以在同一查询中调用多个 UDF。

预览可用性

Athena 的 UDF 功能目前在 美国东部(弗吉尼亚北部)地区 中处于预览模式。

后续步骤

通过 Amazon Athena 将 Apache Hive 元数据仓用作元目录(预览版)

现在,您除了 AWS Glue 数据目录 以及 Athena 之外,还可以将 Athena 连接到一个或多个 Apache Hive 元存储。

元数据仓连接器

要连接到自托管的 Hive 元存储,您需要一个 Athena Hive 元存储连接器。Athena 提供了一个您可以使用的参考实施连接器。连接器在您的账户中作为 AWS Lambda 函数运行。有关更多信息,请参阅为外部 Hive 元数据仓使用 Athena 数据连接器(预览版)

预览可用性

Hive 元数据仓功能在 美国东部(弗吉尼亚北部)地区 中处于预览模式。

后续步骤

与查询相关的新指标

Athena 现在发布其他查询指标,以帮助您了解 Amazon Athena 的性能。Athena 将与查询相关的指标发布到 Amazon CloudWatch。在此版本中,Athena 发布以下其他查询指标:

  • Query Planning Time (查询计划时间) – 计划查询所花费的时间。这包括从数据源检索表分区所花费的时间。

  • Query Queuing Time (查询队列时间) – 查询在队列中等待资源的时间。

  • 服务处理时间 – 查询引擎完成处理后写入结果所需的时间。

  • Total Execution Time (总执行时间) – Athena 运行查询所花费的时间。

要使用这些新的查询指标,您可以创建自定义控制面板,在 CloudWatch 中设置指标的警报和触发器,或者直接从 Athena 控制台使用预填充的控制面板。

后续步骤

有关更多信息,请参阅使用 CloudWatch 指标监控 Athena 查询