使用 Hudi CLI
您可以使用 Hudi CLI 管理 Hudi 数据集,以查看有关提交、文件系统、统计信息等的信息。还可以使用 CLI 手动执行压缩、计划压缩或取消计划的压缩。有关更多信息,请参阅 Apache Hudi 文档中的 CLI 互动
启动 Hudi CLI 并连接到数据集
-
使用 SSH 连接主节点。有关更多信息,请参阅《Amazon EMR 管理指南》中的使用 SSH 连接到主节点。
-
在命令行中,键入
/usr/lib/hudi/cli/bin/hudi-cli.sh。命令提示符更改为
hudi->。 -
使用以下命令连接到数据集。将
s3://amzn-s3-demo-bucket/myhudidataset替换为您想要使用的数据集的路径。我们使用的值与前面示例中建立的值相同。connect --paths3://amzn-s3-demo-bucket/myhudidataset命令提示符将更改以包括您连接到的数据集,如以下示例所示。
hudi:myhudidataset->
默认情况下,Amazon EMR 版本 7.3.0 至 7.8.0 中的 hudi-cli.sh 脚本使用 hudi-cli-bundle.jar。如果遇到问题,可以使用以下命令切换回经典 Hudi CLI:
/usr/lib/hudi/cli/bin/hudi-cli.sh --cliBundle false
此命令运行 hudi-cli.sh 脚本,设置 --cliBundle 标志,并指示 CLI 使用单个 JAR 文件而不是捆绑的 JAR。默认情况下,将 --cliBundle 设置为 true,这意味着 CLI 改用捆绑的 JAR。
使用 Amazon EMR 7.9.0 及更高版本
注意
在 EMR 7.9.0 及更高版本中,hudi-cli.sh 脚本已被弃用。Amazon EMR 7.9.0 及更高版本使用 hudi-cli-bundle.jar。
要启动 Hudi CLI 并连接到数据集,请执行以下操作:
-
使用 SSH 连接主节点。有关更多信息,请参阅《Amazon EMR 管理指南》中的使用 SSH 连接到主节点。
-
在命令行中,键入 /usr/lib/hudi/cli-bundle/bin/hudi-cli-with-bundle.sh 或者直接键入 hudi-cli-with-bundle 或 >hudi-cli。
命令提示符更改为 hudi- >。
-
使用以下命令连接到数据集。将 s3://amzn-s3-demo-bucket/myhudidataset 替换为您想要使用的数据集的路径。我们使用的值与前面示例中建立的值相同。
connect --path s3://amzn-s3-demo-bucket/myhudidataset -
命令提示符将更改以包括您连接到的数据集,如以下示例所示。
hudi:myhudidataset->