Amazon EMR
管理指南
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 AWS 服务入门

将 Git 存储库与 Amazon EMR 笔记本关联

您可以将 Git 存储库与 Amazon EMR 笔记本关联,以将笔记本保存在版本控制的环境中。一个笔记本最多可与三个存储库关联。Git 存储库必须托管于以下基于 Web 的 Git 托管服务中:GitHub 或 Bitbucket。将 Git 存储库与笔记本关联可用于下列情况:

  • 版本控制 – 通过将笔记本存储在 Git 存储库中,您可以在版本控制系统中记录代码更改,以便能查看更改历史记录并有选择地撤销某些更改。

  • 协作 – 通过将笔记本存储在 Git 存储库中,使在其他笔记本中工作的同行能够通过远程 Git 存储库共享代码。笔记本可以从远程 Git 存储库克隆或合并代码,然后将更改推送回这些远程存储库。

  • 代码重用 – 许多演示数据分析或机器学习技术的 Jupyter 笔记本可在公开托管的 Git 存储库上提供,例如 GitHub。您可以将您的笔记本与存储库关联,以重用包含在该存储库中的 Jupyter 笔记本。

在将 Git 存储库与笔记本关联之前,您需要确保集群、IAM 角色和安全组具有正确的设置和权限。

  • 笔记本连接到的集群必须位于具有网络地址转换 (NAT) 网关的私有子网中,或者必须能够通过虚拟私有网关访问 Internet。有关更多信息,请参阅 Amazon VPC 选项

  • 如果您需要存储库的密钥,则 EMR 笔记本的服务角色必须在其 IAM 策略中具有 secretsmanager:GetSecretValue 权限。有关更多信息,请参阅 EMR 笔记本的服务角色

  • 笔记本的安全组必须包含出站规则,以允许笔记本通过集群将流量路由到 Internet。建议您创建您自己的安全组。有关更多信息,请参阅为 EMR 笔记本指定 EC2 安全组

要管理 Git 存储库,请在 Amazon EMR 控制台中添加存储库作为资源,关联需要身份验证的存储库的凭证,然后将其与笔记本链接。您可在 Amazon EMR 控制台中查看存储在账户中的存储库列表以及各个存储库的详细信息。还可以使用现有 Git 存储库创建笔记本。