将基于 Git 的存储库添加到 Amazon EMR - Amazon EMR
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

将基于 Git 的存储库添加到 Amazon EMR

注意

EMR Notebooks 在新控制台中作为 Amazon EMR Studio Workspaces 提供。您仍然可以在旧控制台中使用现有笔记本,但无法在其中创建新笔记本。新控制台中的创建 Workspace 按钮将取代此功能。要访问或创建 Workspaces,EMR Notebooks 用户需要额外的 IAM 角色权限。有关更多信息,请参阅 Amazon EMR Notebooks are Amazon EMR Studio Workspaces in new console(Amazon EMR Notebooks 在新控制台中为 Amazon EMR Studio Workspaces)和 What's new in the console?(控制台中有哪些新功能?)

有关如何将基于 Git 的存储库添加到旧控制台中的 EMR 笔记本或新控制台中的 EMR Studio Workspace,请参阅以下各节的内容。

New console

EMR Notebooks 便是新控制台中的 EMR Studio Workspaces,因此您可以按照 将基于 Git 的存储库链接到 EMR Studio Workspace 中的说明将最多三个 Git 存储库关联到 Workspace。

此外,您也可以使用 JupyterLab Git 扩展程序。从 Jupyterlab 笔记本的左侧边栏中选择 Git 图标来访问扩展程序。有关扩展程序的信息,请参阅 jupyterlab-git GitHub 存储库。

要将 Git 存储库关联到 Workspace,Studio 管理员必须配置 Studio 以允许 Git 存储库链接。有关更多信息,请参阅为基于 Git 的存储库建立访问和权限

Old console
使用旧控制台将基于 Git 的存储库添加为 Amazon EMR 账户中的资源
  1. 通过以下链接打开 Amazon EMR 旧控制台:https://console.aws.amazon.com/elasticmapreduce

  2. 选择 Git repositories (Git 存储库),然后选择 Add repository (添加存储库)

  3. 对于 Repository name (存储库名称),输入在 Amazon EMR 中为存储库使用的名称。

    名称只能包含字母数字字符、连字符 (-) 或下划线 (_)。

  4. 对于 Git repository URL (Git 存储库 URL),输入存储库的 URL。使用 CodeCommit 存储库时,这是当您选择 Clone URL (克隆 URL)、然后选择 Clone HTTPS (克隆 HTTPS) 时复制的 URL,例如 https://git-codecommit.us-west-2.amazonaws.com/v1/repos/MyCodeCommitRepoName

  5. 对于 Branch (分支),输入分支名称。

  6. 对于 Git credentials (Git 凭证),请根据以下准则选择选项。可以使用 Git 用户名和密码或个人访问令牌(PAT)对您的存储库进行身份验证。EMR Notebooks 使用存储在 Secrets Manager 中的密钥访问您的 Git 凭证。

    注意

    如果您使用 GitHub 存储库,我们建议您使用个人访问令牌(PAT)进行身份验证。从 2021 年 8 月 13 日开始,GitHub 在对 Git 操作进行身份验证时将不再接受密码。有关更多信息,请参阅 GitHub 博客中的 Token authentication requirements for Git operations 一文。

    选项 描述

    使用现有 Amazon 密钥

    如果您已将凭证保存为 Secrets Manager 中的密钥,请选择此选项,然后从列表中选择密钥名称。

    如果您选择与 Git 用户名和密码关联的密钥,则密钥必须采用 {"gitUsername": "MyUserName", "gitPassword": "MyPassword"} 格式。

    创建新密钥

    选择此选项可将现有 Git 凭证与您在 Secrets Manager 中创建的新密钥相关联。根据您用于存储库的 Git 凭证,执行以下操作之一。

    如果您使用 Git 用户名和密码访问存储库,请选择 Username and password(用户名和密码),输入要在 Secrets Manager 中使用的 Secret name(密钥名称),然后输入要与密钥关联的 Username(用户名)和 Password(密码)。

    –或者–

    如果您使用个人访问令牌访问存储库,请选择 Personal access token (PAT) (个人访问令牌 (PAT)),输入要在 Secrets Manager 中使用的 Secret name (密钥名称),然后输入您的个人访问令牌

    有关更多信息,请参阅为 GitHub 的命令行创建个人访问令牌Bitbucket 的个人访问令牌。CodeCommit 存储库不支持此选项。

    在没有凭证的情况下使用公有存储库

    选择此选项可访问公有存储库。

  7. 选择 Add repository (添加存储库)