使用 Trino 启动 Amazon EMR 集群 - Amazon EMR
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

使用 Trino 启动 Amazon EMR 集群

下面介绍了使用 Trino 创建集群时的正确配置选择。

使用 Hive 连接器使数据可供查询

您可以为 Hive 元存储配置 Trino 连接器,以便从集群查询元存储数据。元存储是一个抽象层,它将基于文件的内容或数据以表格形式呈现,从而方便查询。您必须在 Amazon EMR 中配置连接器,才能使 Hive 元存储表可供集群使用。以下过程演示了如何执行此操作:

  1. 在控制 Amazon 台中选择 Glue,然后根据您在 Amazon S3 中的源数据创建一个表。 Amazon Glue 数据目录中的表是数据的元数据定义。在这种情况下,从源数据手动创建表并根据需要创建列很有意义。有关在 Amazon Glue 中根据 Amazon S3 中的半结构化数据创建表的更多信息,请参阅 Amazon Glue 用户指南中的使用控制台创建表。

  2. 在创建集群时设置您的配置。选择配置选项卡。“配置”是您的集群的可选规范。输入配置时,添加如下示例所示的 JSON,它指示 Trino 使用 G Amazon lue 数据目录作为表元数据的外部 Hive 元数据库:

    { "classification": "trino-connector-hive", "properties": { "hive.metastore": "glue" } }

    或者,在创建集群时,您可以应用软件设置部分中的配置。

    此外,您还可以设置其他连接器类型,例如用于连接 Apache Iceberg 的连接器。有关更多信息,请参阅《Amazon EMR 版本指南》中的将 Iceberg 集群与 Trino 结合使用。配置其他设置是可选的。

要继续执行入门步骤,请参阅连接到 Amazon EMR 集群的主节点并运行查询

使用 Trino 创建集群

下面介绍了使用 Trino 创建要使用的集群时的正确配置选择。

重要

在创建集群之前,请完成作为 Hive 元数据仓的 Amazon Glue 数据目录配置,我们建议您开始使用此配置。有关更多信息,请参阅 使用 Hive 连接器使数据可供查询

  1. 在 Amazon 控制台中,从服务中选择 Amazon EMR。当您选择 Amazon EMR 时,如果您已有集群,则会列出您在集群上 EC2的 EMR

  2. 选择创建集群。从这里开始构建集群的过程。

  3. 为您的集群命名,然后选择一个 Amazon EMR 发行版。您可以为本教程选择最新的发行版。

  4. 选择 Trino 捆绑包,其中已预先选择了 Trino 应用程序。为方便起见,如果您事先知道集群的用途,则可以设置捆绑包。否则,您可以直接选中 Trino 的复选框。

  5. 对于集群配置,选择统一实例组。请继续操作并移除其他实例组。

  6. 选择一个实例类型。通常,我们建议您选择至少具有 16 GiB 内存的实例类型。此外,对于集群扩展和预置,请选择手动设置集群大小

  7. 此时,将你的 Hive 元数据仓配置设置为指向 Glu Amazon e。使用 Hive 连接器使数据可供查询部分对此进行了详细介绍。请在构建集群之前完成此操作。

  8. 选择创建集群。它可能需要数分钟来完成。

    此处的步骤并未详细涵盖所有配置步骤。有关设置集群的更多信息,请参阅规划、配置和启动 Amazon EMR 集群

注意

请勿在同一集群上同时选择 Presto 和 Trino 进行使用。它们不支持同时运行。此外,如果您运行 Trino,建议不要在集群上运行任何其他应用程序(例如 Spark)。