将基于 Git 的存储库链接到 EMR Studio Workspace - Amazon EMR
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 Amazon Web Services 服务入门

将基于 Git 的存储库链接到 EMR Studio Workspace

关于 EMR Studio 的 Git 存储库

您最多可以将三个 Git 存储库与一个 EMR Studio Workspace 相关联。默认情况下,每个 Workspace 都允许您从与 Studio 相同的 Amazon 账户关联的 Git 存储库列表中进行选择。您还可以创建新的 Git 存储库作为 Workspace 资源。

您可以在连接到集群的主节点 (master node) 时使用终端命令运行如下所示的 Git 命令。

!git pull origin <branch-name>

您也可以使用 jupyterlab-git 扩展。从左侧边栏中选择 Git 图标打开它。有关适用于 JupyterLab 的 jupyterlab-git 扩展的信息,请参阅 jupyterlab-git

Prerequisites

  • 要将 Git 存储库与 Workspace 关联,Studio 必须配置为允许 Git 存储库链接。您的 Studio 管理员应该执行为基于 Git 的存储库建立访问和权限中所述的步骤。

  • 如果您使用 CodeCommit 存储库,则必须使用 Git 凭证和 HTTPS。不支持 SSH 密钥和带有 Amazon Command Line Interface 凭证辅助程序的 HTTPS。CodeCommit 也不支持个人访问令牌 (PAT)。有关更多信息,请参阅《IAM 用户指南》中的将 IAM 与 CodeCommit 结合使用和《Amazon CodeCommit 用户指南》中的使用 Git 凭证设置 HTTPS 用户

将关联的 Git 存储库链接到 Workspace

  1. 从 Studio 的 Workspaces 列表中打开要链接到存储库的 Workspace。

  2. 在左侧边栏中选择 EMR Git Repository (EMR Git 存储库) 图标,打开 Git repository (Git 存储库) 工具面板。

  3. Git repositories (Git 存储库) 下,展开下拉列表并最多选择三种存储库以链接到 Workspace。EMR Studio 注册您的选择并开始链接每个存储库。

链接过程可能需要一些时间才能完成。您可以在 Git repository (Git 存储库) 工具面板中查看您选择的每个存储库的状态。EMR Studio 将存储库链接到 Workspace 后,您应该会在 File browser (文件浏览器) 面板中看到属于该存储库的文件。

将新的 Git 存储库作为资源添加到 Workspace

  1. 从 Studio 的 Workspaces 列表中打开要链接到存储库的 Workspace。

  2. 在左侧边栏中选择 EMR Git Repository (EMR Git 存储库) 图标,打开 Git repository (Git 存储库) 工具面板。

  3. 选择 Add new Git repository (添加新的 Git 存储库)

  4. 对于 Repository name (存储库名称),输入 EMR Studio 中存储库的描述性名称。名称只能包含字母数字字符、连字符和下划线。

  5. 对于 Git repository URL (Git 存储库 URL),输入存储库的 URL。当您使用 CodeCommit 存储库时,这是在您选择 Clone URL (克隆 URL)Clone HTTPS (克隆 HTTPS) 时复制的 URL。例如:https://git-codecommit.us-west-2.amazonaws.com/v1/repos/[MyCodeCommitRepoName]

  6. 对于 Branch (分支),输入要签出的现有分支的名称。

  7. 对于 Git credentials (Git 凭证),请根据以下准则选择选项。EMR Studio 使用存储在 Secrets Manager 中的密钥访问您的 Git 凭证。

    注意

    如果您使用 GitHub 存储库,我们建议您使用个人访问令牌 (PAT) 进行身份验证。从 2021 年 8 月 13 日开始,GitHub 将需要基于令牌的身份验证,并且在对 Git 操作进行身份验证时将不再接受密码。有关更多信息,请参阅 GitHub 博客中的 Token authentication requirements for Git operations 一文。

    选项 描述
    创建新密钥

    选择此选项可将现有 Git 凭证与将在 Amazon Secrets Manager 中为您创建的新密钥相关联。根据您用于存储库的 Git 凭证,执行以下操作之一。

    如果您使用 Git 用户名和密码访问存储库,请选择 Username and password (用户名和密码),输入要在 Secrets Manager 中使用的 Secret name (密钥名称),然后输入要与密钥关联的 Username (用户名)Password (密码)

    –或者–

    如果您使用个人访问令牌访问存储库,请选择 Personal access token (PAT) (个人访问令牌 (PAT)),输入要在 Secrets Manager 中使用的 Secret name (密钥名称),然后输入您的个人访问令牌。有关更多信息,请参阅为 GitHub 的命令行创建个人访问令牌Bitbucket 的个人访问令牌。CodeCommit 存储库不支持此选项。

    在没有凭证的情况下使用公有存储库 选择此选项可访问公有存储库。
    使用现有 Amazon 密钥

    如果您已将凭证保存为 Secrets Manager 中的密钥,请选择此选项,然后从列表中选择密钥名称。

    如果您选择与 Git 用户名和密码关联的密钥,则密钥必须采用 {"gitUsername": MyUserName, "gitPassword": MyPassword} 格式。

  8. 选择 Add repository (添加存储库) 创建新存储库。EMR Studio 创建新存储库后,您将看到一条成功消息。新存储库显示在 Git repositories (Git 存储库) 下的下拉列表中。

  9. 要将新存储库链接到您的 Workspace,请从 Git repositories (Git 存储库) 下的下拉列表中选择它。

链接过程可能需要一些时间才能完成。在 EMR Studio 将新存储库链接到 Workspace 后,您应该会在 File Browser (文件浏览器) 面板中看到一个与您的存储库同名的新文件夹。

要打开不同的链接存储库,请在 File browser (文件浏览器) 中导航到其文件夹。