本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
创建安装了 Hudi 的集群
在亚马逊EMR发布的5.28.0及更高版本中,当EMR安装Spark、Hive或Presto时,亚马逊会默认安装Hudi组件。要在 Amazon 上使用 HudiEMR,请创建一个安装了以下一个或多个应用程序的集群:
-
Hadoop
-
Hive
-
Spark
-
Presto
-
Flink
您可以使用 Amazon Web Services Management Console Amazon CLI、或 Amazon 创建集群EMRAPI。
导航到新的 Amazon EMR 控制台,然后从侧面导航栏中选择 “切换到旧主机”。有关切换到旧控制台后预期情况的更多信息,请参阅 Using the old console。
-
依次选择 Create cluster (创建集群)、Go to advanced options (转到高级选项)。
-
在 Software Configuration(软件配置)下,对于 Release(发行版),选择 emr-5.28.0 或更高版本,然后选择 Hadoop、Hive、Spark、Presto、Tez 以及集群需要的其他应用程序。
-
根据应用程序的需要配置其它选项,然后选择下一步。
-
根据需要配置 Hardware (硬件) 和 General cluster settings (常规集群设置) 的选项。
-
对于安全选项,我们建议您选择一个EC2密钥对,您可以使用该密钥对连接到主节点命令行SSH。这允许你运行本指南中描述的 Spark shell CLI 命令、Hive 命令和 Hudi CLI 命令。
-
根据需要选择其它安全选项,然后选择 Create cluster (创建集群)。