Amazon EMR
管理指南
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 AWS 服务入门

将笔记本与 Lake Formation 结合使用

Apache Zeppelin 和 EMR 笔记本与 Lake Formation 集成,在创建了与 Lake Formation 集成的 EMR 集群之后即可使用。

要访问这两个笔记本应用程序,您必须首先确保集群的 EC2 安全组或 VPC 网络访问控制列表 (ACL) 已配置为允许从您的桌面访问代理程序(端口 8442)。

注意

默认情况下,EMR 集群上的代理程序使用自签名传输层安全性 (TLS) 证书,并且浏览器将提示您接受该证书,然后再继续。如果您希望为代理程序使用自定义证书,请参阅“自定义代理程序证书”部分。

Apache Zeppelin

要访问 Apache Zeppelin,请使用 EMR 控制台,在集群的 Summary (摘要) 选项卡中找到 Master public DNS (主公有 DNS)。使用浏览器导航到 https://MasterPublicDNS:8442/gateway/default/zeppelin/。确保 URL 的结尾包括尾斜杠。

接受了代理程序的证书之后,浏览器会将您重定向到身份提供程序 (IdP) 以进行身份验证。经过身份验证之后,系统将您重定向到 Zeppelin。

创建第一个 Zeppelin 笔记本

要开始使用,请依次选择 Notebook (笔记本)Create new note (创建新笔记本) 来创建一个新笔记本。指定笔记本的名称并使用默认 livy 解释器。

要查看 Lake Formation 数据库的列表,请使用以下 Spark SQL 命令。

spark.sql("show databases").show()

要查询特定 Lake Formation 表,请使用以下 Spark SQL 命令。将 database.table 替换为 Lake Formation 中的实际数据库和表:

spark.sql("SELECT * FROM database.table limit 10").show()

EMR 笔记本

EMR 笔记本可以使用 Amazon EMR 控制台创建,并用于现有与 Lake Formation 集成的 EMR 集群。

创建 EMR 笔记本

  1. 打开 Amazon EMR 控制台 (https://console.aws.amazon.com/elasticmapreduce/)。

  2. 依次选择 Notebooks (笔记本)Create notebook (创建笔记本)

  3. Notebook name (笔记本名称) 中输入一个名称,在 Notebook description (笔记本描述)(可选)中输入相关描述。

  4. 依次选择 Choose an existing cluster (选择现有集群)Choose (选择)

  5. 选择现有与 Lake Formation 集成的现有 EMR。

  6. 选择 Create notebook (创建笔记本) 以创建笔记本。

创建笔记本之后,选择该笔记本并单击 Open (打开)。您将重定向 Amazon EMR 集群上的代理程序。在您接受代理程序的证书之后,浏览器会将您重定向到身份提供程序 (IdP) 以进行身份验证。经过身份验证之后,系统将您重定向到 EMR 笔记本。

有关更多信息,请参阅 Amazon EMR 管理指南 中的使用 Amazon EMR 笔记本

本页内容: