在 Amazon EMR 上配置 Trino - Amazon EMR
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

在 Amazon EMR 上配置 Trino

为 Trino 配置连接器

作为 Hive 元存储连接到 Amazon Glue

在使用 Trino 运行查询时,您可以将 Amazon Glue Data Catalog 配置为 Hive 元存储,了解这一点既重要又有用。有关更多信息,包括设置带有 Hive 元存储的集群的步骤,请参阅使用 Amazon Glue Data Catalog 作为 Hive 的元存储

有关将 EMR on EKS 与 Amazon Glue 集成的信息,请参阅以下最佳实践:EMR Containers integration with Amazon Glue

将 Trino 与 Amazon EMR 结合使用时连接到 Iceberg 表

Iceberg 是一种适用于分析表的开放表格式。它是为 Spark 和 Trino 等引擎创建的,以便使用 SQL 查询从相同的表中查询大数据。例如,它包括隔离数据读取和写入等功能,以便读取方可以避免查询已部分更新的数据。它还支持状态功能(例如快照)。它通过使用元数据和清单文件提供了一个抽象层。它们描述了表架构,使得查询数据变得容易,而无需了解有关如何设置数据格式或组织数据的很多详细信息。连接后,您既可以读取表中的数据、更新数据,也可以将新数据写入底层文件。

有一个研讨会将向您展示如何使用 Amazon EMR 和 Amazon Glue 配置 Iceberg 表。有关更多信息,请参阅 Analytics Workshop - Set Up and Use Apache Iceberg Tables on Your Data Lake

与客户端连接

您可以使用可用的 JDBC 驱动程序与 Trino 连接。有关更多信息,请参阅 Trino 文档中的 JDBC driver

监控

您可以通过Amazon Web Services 管理控制台监控 Amazon EMR 集群。有关更多信息,请参阅在 Amazon EMR 集群执行工作时查看和监控。Amazon EMR 还会将其监控指标发送到 Amazon CloudWatch。有关监控 Amazon EMR 集群的更多信息,请参阅来自 Amazon EMR 的 Amazon CloudWatch 事件和指标