将基于 Git 的存储库链接到 EMR Studio Workspace - Amazon EMR
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

将基于 Git 的存储库链接到 EMR Studio Workspace

关于 EMR Studio 的 Git 存储库

您最多可以将三个 Git 存储库与一个 EMR Studio Workspace 相关联。默认情况下,每个工作区都允许您从与 Studio 同一个 Amazon 帐户关联的 Git 存储库列表中进行选择。您还可以创建新的 Git 存储库作为 Workspace 资源。

在连接到集群的主节点时,您可以使用终端命令运行如下所示的 Git 命令。

!git pull origin <branch-name>

此外,您也可以使用 jupyterlab-git 扩展程序。从左侧边栏中选择 Git 图标打开它。有关 jupyterlab-git 扩展的信息,请参阅 jupyterlab-git。 JupyterLab

先决条件

将关联的 Git 存储库链接到 Workspace
  1. 从 Studio 的 Workspaces 列表中打开要链接到存储库的 Workspace。

  2. 从左侧边栏中选择 Amazon EMR Git 存储库图标打开 Git 存储库工具面板。

  3. Git repositories (Git 存储库) 下,展开下拉列表并最多选择三种存储库以链接到 Workspace。EMR Studio 注册您的选择并开始链接每个存储库。

链接过程可能需要一些时间才能完成。您可以在 Git repository (Git 存储库) 工具面板中查看您选择的每个存储库的状态。EMR Studio 将存储库链接到 Workspace 后,您应该会在 File browser (文件浏览器) 面板中看到属于该存储库的文件。

将新的 Git 存储库作为资源添加到 Workspace
  1. 从 Studio 的 Workspaces 列表中打开要链接到存储库的 Workspace。

  2. 从左侧边栏中选择 Amazon EMR Git 存储库图标打开 Git 存储库工具面板。

  3. 选择 Add new Git repository (添加新的 Git 存储库)

  4. 对于 Repository name (存储库名称),输入 EMR Studio 中存储库的描述性名称。名称只能包含字母数字字符、连字符和下划线。

  5. 对于 Git repository URL (Git 存储库 URL),输入存储库的 URL。使用 CodeCommit 存储库时,这是在您选择 “克隆 URL” 然后选择 “隆 HTTPS” 时复制的 URL。例如,https://git-codecommit.us-west-2.amazonaws.com/v1/repos/[MyCodeCommitRepoName]

  6. 对于 Branch (分支),输入要签出的现有分支的名称。

  7. 对于 Git credentials (Git 凭证),请根据以下准则选择选项。EMR Studio 使用存储在 Secrets Manager 中的密钥访问您的 Git 凭证。

    注意

    如果您使用 GitHub 存储库,我们建议您使用个人访问令牌 (PAT) 进行身份验证。从 2021 年 8 月 13 日起, GitHub 将要求基于令牌的身份验证,并且在对 Git 操作进行身份验证时将不再接受密码。有关更多信息,请参阅博客上的 Git 操作令牌身份验证要求 GitHub 文章

    选项 描述
    创建新密钥

    选择此选项可将现有 Git 凭据与将在中 Amazon Secrets Manager 为您创建的新密钥相关联。根据您用于存储库的 Git 凭证,执行以下操作之一。

    如果您使用 Git 用户名和密码访问存储库,请选择 Username and password(用户名和密码),输入要在 Secrets Manager 中使用的 Secret name(密钥名称),然后输入要与密钥关联的 Username(用户名)和 Password(密码)。

    –或者–

    如果您使用个人访问令牌访问存储库,请选择 Personal access token (PAT) (个人访问令牌 (PAT)),输入要在 Secrets Manager 中使用的 Secret name (密钥名称),然后输入您的个人访问令牌。有关更多信息,请参阅为命令行创建个人访问令牌 GitHub和为 Bitbucket 创建个人访问令牌。 CodeCommit 存储库不支持此选项。

    在没有凭证的情况下使用公有存储库 选择此选项可访问公有存储库。
    使用现有 Amazon 密钥

    如果您已将凭证保存为 Secrets Manager 中的密钥,请选择此选项,然后从列表中选择密钥名称。

    如果您选择与 Git 用户名和密码关联的密钥,则密钥必须采用 {"gitUsername": "MyUserName", "gitPassword": "MyPassword"} 格式。

  8. 选择 Add repository (添加存储库) 创建新存储库。EMR Studio 创建新存储库后,您将看到一条成功消息。新存储库显示在 Git repositories (Git 存储库) 下的下拉列表中。

  9. 要将新存储库链接到您的 Workspace,请从 Git repositories (Git 存储库) 下的下拉列表中选择它。

链接过程可能需要一些时间才能完成。在 EMR Studio 将新存储库链接到 Workspace 后,您应该会在 File Browser (文件浏览器) 面板中看到一个与您的存储库同名的新文件夹。

要打开不同的链接存储库,请在 File browser (文件浏览器) 中导航到其文件夹。