Amazon EMR Studio 工作原理 - Amazon EMR
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 Amazon Web Services 服务入门

Amazon EMR Studio 工作原理

Amazon EMR Studio 是您为用户团队创建的 Amazon EMR 资源。EMR Studio 是一个独立的集成开发环境,适用于依托 Amazon EMR 集群运行的 Jupyter 笔记本。用户使用其公司凭证登录 Studio。

您创建的每个 EMR Studio 都使用以下 Amazon 资源:

  • 含有子网的 Amazon Virtual Private Cloud (VPC) - 在指定的 VPC 和子网条件下,用户在 Amazon EMR 和 Amazon EMR on EKS 集群上运行 Studio 内核和应用程序。

  • IAM 角色和权限策略 - 要管理用户权限,您可以创建附加到用户的 IAM 身份或 IAM 用户角色的 IAM 权限策略。EMR Studio 还使用 IAM 服务角色和安全组与其他 Amazon 服务进行互操作。有关更多信息,请参阅 配置 EMR Studio 安全性

  • 安全组 - EMR Studio 使用安全组在 Studio 和 EMR 集群之间建立安全的网络通道。

  • Amazon S3 备份位置 - EMR Studio 将笔记本作业保存在 Amazon S3 所在位置。

以下步骤概括了如何创建和管理 EMR Studio:

  1. 在您的 Amazon Web Services 账户 中,使用 IAM 或 Amazon Web Services SSO 身份验证创建 Studio。有关说明,请参阅 设置 Amazon EMR Studio

  2. 将用户和组分配给 Studio。使用权限策略为每个用户设置细化权限。有关更多信息,请参阅主题 分配和管理 EMR Studio 用户

  3. 借助 Amazon CloudTrail 事件开启监控 EMR Studio 操作。有关更多信息,请参阅 监控 Amazon EMR Studio 操作

  4. 通过集群模板和 Amazon EMR on EKS 托管式终端节点向 Studio 用户提供更多集群选项。有关更多信息,请参阅为 Amazon EMR Studio 创建 Amazon CloudFormation 模板为 Amazon EMR Studio 设置 Amazon EMR on EKS

Workspaces

Workspaces 是 Amazon EMR Studio 的主要构建块。要组织笔记本,用户必须在 Studio 创建一个或多个 Workspaces。Workspace 类似于 JupyterLab 中的 Workspaces,因为它会保留笔记本作业的状态。然而,Workspace 用户界面通过其他工具扩展了开源 JupyterLab 界面,以帮助您创建和附加 EMR 集群、运行任务、探索示例笔记本和链接 Git 存储库。

Workspace 可见性是基于 Studio 的。您在 Studio 中创建的 Workspaces 在其他 Studio 中不可见。

Workspace 中的笔记本共享以下用户定义的属性:

  • Amazon VPC 子网 — 创建 Workspace 时,您将其与子网相关联。Workspace 可访问其关联子网中的 EMR 集群。当您在 Workspace 创建新的 EMR 集群时,EMR Studio 将在与其同一子网中启动集群。

  • EMR 集群 – Amazon EMR Studio 使用 EMR 集群上的内核运行笔记本命令。您可以将 Workspace 附加到 Amazon EC2 上运行的 Amazon EMR 集群或附加到 Amazon EMR on EKS 虚拟集群和托管式终端节点上。

有关创建和配置 EMR Studio Workspaces 的更多信息,请参阅 Amazon EMR Studio 中的 Workspaces

Amazon EMR Studio 中的笔记本存储

当您使用 Workspace 时,EMR Studio 会定期将您的笔记本文件中的单元格自动保存到与您的 Studio 关联的 Amazon S3 位置。此备份过程可以保留会话之间的工作,以便您以后可以在不向 Git 存储库提交更改的情况下再返回。有关更多信息,请参阅 保存 Workspace 内容

当您从 Workspace 中删除笔记本文件时,EMR Studio 会为您从 Amazon S3 中删除备份版本。但是,如果您删除 Workspace 而没有先删除其笔记本文件,则笔记本文件会保留在 Amazon S3 中并继续产生存储费用。要了解更多信息,请参阅 删除 Workspace 和笔记本文件

通过 EMR Studio 研讨会学习

Amazon EMR 开发人员体验研讨会通过一系列实验室活动帮助您构建 Amazon EMR Studio 的基础知识。在研讨会中,您可以设置 Studio,创建 Amazon EMR 集群并将其附加到 Studio 中的 Workspace,然后使用示例笔记本分析数据。