配置联网(面向管理员) - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

配置联网(面向管理员)

本节提供有关管理员如何配置其网络以允许在 Amazon SageMaker Studio Classic 笔记本电脑和 Amazon EMR 集群之间进行通信的信息。

根据 SageMaker Studio Classic和Amazon EMR是部署在私有亚马逊虚拟私有云 (VPC) 中还是通过互联网进行通信,联网说明会有所不同。

默认情况下, SageMaker Studio Classic 在可访问互联网的 Amazon 托管 VPC 中运行。使用互联网连接时,Studio Classic 会通过互联网访问 Amazon 资源,例如 Amazon S3 存储桶。但是,如果您有控制数据和任务容器访问权限的安全要求,我们建议您配置 SageMaker Studio Classic 和 Amazon EMR,这样您的数据和容器就无法通过互联网访问。要控制对资源的访问或在没有公共互联网访问的情况下运行 SageMaker Studio Classic,您可以在加入 Amazon SageMaker 域时指定VPC only网络访问类型。在这种情况下, SageMaker Studio Classic 通过私有 VPC 终端节点与其他 Amazon 服务建立连接。有关在VPC only模式下配置 SageMaker Studio Classic 的信息,请参阅将 VPC 中的 SageMaker Studio Classic 笔记本电脑连接到外部资源。

前两节介绍如何在没有公共互联网访问的 VPC 中确保 SageMaker Studio Classic 和 Amazon EMR 集群之间的通信。最后一节介绍如何使用互联网连接确保 SageMaker Studio Classic 和 Amazon EMR 之间的通信。在没有互联网访问权限的情况下连接 SageMaker Studio Classic 和 Amazon EMR 之前,请务必为亚马逊简单存储服务(数据存储)、亚马逊(记录和监控)和亚马逊 SageMaker 运行时 CloudWatch (基于角色的细粒度访问控制 (RBAC))建立终端节点。

Studio Classic 和 Amazon EMR 部署在单独的 VPC 中

要允许 SageMaker Studio Classic 和 Amazon EMR 集群部署在不同的 VPC 中时进行通信,请执行以下操作:

  1. 首先通过 VPC 对等连接来连接 VPC。

  2. 更新每个 VPC 中的路由表,以双向路由 Studio Classic 子网和 Amazon EMR 子网之间的网络流量。

  3. 配置安全组以允许入站和出站流量。

无论将 Amazon SageMaker Studio Classic 和 Amazon EMR 集群部署在同一个 Amazon 账户(单一账户用例)还是不同的账户(跨 Amazon 账户用例)中,步骤都类似。

  1. VPC 对等连接

    创建 VPC 对等连接以促进两个 VPC(SageMaker Studio Classic 和 Amazon EMR)之间的联网。

    1. 在您的 SageMaker Studio Classic 账户中,在 VPC 控制面板上,选择对等连接,然后选择创建对等连接。

    2. 创建您的请求,在 Amazon EMR VPC 内对 Studio Classic VPC 进行对等。在其他 Amazon 账户中请求对等时,请在选择要与之建立对等关系的另一个 VPC 中选择另一个账户

      对于跨账户对等连接,管理员必须接受来自 Amazon EMR 账户的请求。

      与私有子网建立对等连接时,您应在 VPC 对等连接级别启用私有 IP DNS 解析。

  2. 路由表

    双向发送 SageMaker Studio Classic 子网和 Amazon EMR 子网之间的网络流量。

    建立对等连接后,管理员为了进行跨账户存取,可以在每个账户上向私有子网路由表添加路由,以便在笔记本与集群子网之间路由流量。您可以在 VPC 控制面板中,转到每个 VPC 的路由表部分来定义这些路由。

    下图 Studio Classic vpcSubnet 的路由表说明了通过对等连接从 Studio Classic 账户到 Amazon EMR VPC IP 范围(此处2.0.1.0/24)的出站路由示例。

    Amazon EMR VPC 子网的路由表,显示通过对等连接从 Amazon EMR VPC 到 Studio Classic VPC IP 范围的返回路由

    下图显示了 Amazon EMR VPC 子网的路由表,显示了通过对等连接从 Amazon EMR VPC 返回到 Studio Classic VPC IP 范围(此处10.0.20.0/24)的路由示例。

    Studio Classic VPC 子网的路由表显示了通过对等连接从 Studio Classic 账户到 Amazon EMR VPC IP 范围(此处2.0.1.0/24)的出站路由
  3. 安全组

    最后,您的 Studio Classic 域的安全组必须允许出站流量,Amazon EMR 主节点的安全组必须允许来自 Studio Classic 实例安全组的 Apache LivyHiv e 或 Prest o TCP 端口(分别为899810000、和8889)上的入站流量。Apache Livy 是一种服务,可通过 REST 接口实现与 Amazon EMR 集群的交互。

下图显示了 Amazon VPC 设置示例,该设置允许 SageMaker Studio Classic 笔记本电脑通过 Amazon CloudFormation 模板预配置 Amazon EMR 集群,然后连接到同一账户内的亚马逊 EMR 集群。 Amazon 该图进一步说明了在 VPC 无法访问互联网时直接连接各种 Amazon 服务(例如 Amazon S3 或 Amazon CloudWatch)所需的终端节点。或者,您必须使用 NAT 网关,以便在多个 VPC 的私有子网中的实例访问互联网时,共享互联网网关提供的单个公有 IP 地址。

架构图展示了一个简单的 Amazon VPC 设置示例,该设置允许 SageMaker Studio Classic 笔记本电脑通过模板预配置 Amazon EMR 集群 Amazon CloudFormation ,然后连接到同一个账户中的 Amazon EMR 集群。 Amazon 该图进一步说明了在 VPC 无法访问互联网时直接连接各种 Amazon 服务(例如 Amazon S3 或 Amazon CloudWatch)所需的终端节点。或者,您必须使用 NAT 网关,以便在多个 VPC 的私有子网中的实例访问互联网时,共享互联网网关提供的单个公有 IP 地址。

亚马逊 SageMaker Studio Classic 和亚马逊 EMR 位于同一 VPC 中

如果 Amazon SageMaker Studio Classic 和集群位于不同的子网中,请向每个私有子网路由表添加路由,以便在笔记本和集群子网之间路由流量。您可以在 VPC 控制面板中,转到每个 VPC 的路由表部分来定义这些路由。如果您将 Amazon SageMaker Studio Classic 和 Amazon EMR 集群部署在同一 VPC 和同一子网中,则无需在笔记本电脑和集群之间路由流量。

无论您是否需要更新路由表,Studio Classic 域的安全组都必须允许出站流量,Amazon EMR 主节点的安全组必须允许来自 Studio Classic 实例安全组的 Apache LivyHiv e 或 Prest o TCP 端口(分别8998为和8889)的入站流量。10000Apache Livy 是一种服务,可通过 REST 接口实现与 Amazon EMR 集群的交互。

Amazon SageMaker Studio Classic 和亚马逊 EMR 通过公共互联网进行通信

默认情况下, SageMaker Studio Classic 提供一个网络接口,允许通过与 SageMaker 域关联的 VPC 中的互联网网关与互联网进行通信。如果您选择通过公共互联网连接至 Amazon EMR,则您的 Amazon EMR 集群需要在 Apache LivyHivePresto TCP 端口(分别为 8998100008889)接受来自其互联网网关的入站流量。Apache Livy 是一种服务,可通过 REST 接口实现与 Amazon EMR 集群的交互。

请记住,您允许入站流量通过的任何端口,都代表着潜在的安全漏洞。请仔细检查自定义安全组,以确保您最大限度地减少漏洞。有关更多信息,请参阅使用安全组控制网络流量

或者,有关如何在 Amazon EMR 上启用 Kerberos、在私有子网中设置集群并使用网络负载均衡器 (NLB) 仅公开特定端口来访问集群(通过安全组进行访问控制)的演练,请参阅演练和白皮书

注意

通过公共互联网连接到 Apache Livy 终端节点时,我们建议您使用 TLS 保护亚马逊 SageMaker Studio Classic 与亚马逊 EMR 集群之间的通信。

有关使用 Apache Livy 设置 HTTPS 的信息,请参阅使用 Apache Livy 启用 HTTPS。有关设置启用传输加密的 Amazon EMR 集群的信息,请参阅为通过 Amazon EMR 加密来加密传输中数据提供证书。此外,您需要将 Studio Classic 配置为访问您的证书密钥,如中所述通过 HTTPS 连接到 Amazon EMR 集群。