先决条件和注意事项 - Amazon EMR
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 AWS 服务入门

先决条件和注意事项

在计划将基于 Git 的存储库与 EMR 笔记本 集成时,请考虑以下事项。

AWS CodeCommit

如果您使用 CodeCommit 存储库,则必须对 CodeCommit 使用 Git 凭证和 HTTPS。不支持对 AWS CLI 凭证帮助程序使用 SSH 密钥和 HTTPS。CodeCommit 不支持个人访问令牌 (PATA)。有关更多信息,请参阅 IAM 用户指南 中的将 IAM 与 CodeCommit 结合使用:Git 凭证、SSH 密钥和 AWS 访问密钥以及 AWS CodeCommit 用户指南 中的使用 Git 凭证的 HTTPS 用户设置

访问和权限注意事项

在将存储库与笔记本关联之前,请确保集群、EMR 笔记本 的 IAM 角色和安全组具有正确的设置和权限。

  • 要求访问 Internet – 启动的网络接口只有一个私有 IP 地址。这意味着笔记本连接到的集群必须位于具有网络地址转换 (NAT) 网关的私有子网中,或者必须能够通过虚拟私有网关访问 Internet。有关更多信息,请参阅 Amazon VPC 选项

    笔记本的安全组必须包含出站规则,以便允许笔记本将流量从集群路由到 Internet。建议您创建自己的安全组。有关更多信息,请参阅为 EMR 笔记本指定 EC2 安全组

    重要

    如果网络接口启动到公有子网中,它将无法通过 Internet 网关 (IGW) 与 Internet 通信。

  • AWS Secrets Manager 的权限 – 如果您使用 Secrets Manager 来存储用于访问存储库的密钥,则 EMR 笔记本 的服务角色 必须附加允许执行 secretsmanager:GetSecretValue 操作的权限策略。