使用 Studio Classic 笔记本电脑中的 Amazon EMR 集群 - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

使用 Studio Classic 笔记本电脑中的 Amazon EMR 集群

在本节中,您将学习如何从 SageMaker Studio Classic 笔记本电脑中发现、连接或终止 Amazon EMR 集群。

从 SageMaker Studio Classic 连接到 Amazon EMR 集群时,您可以使用 Kerberos轻型目录访问协议 (LDAP) 或使用运行时 IAM 角色身份验证来对集群进行身份验证。您的身份验证方法取决于您的集群配置。您可以参考示例在启用了 Kerberos 的 Amazon EMR 集群上使用网络负载均衡器访问 Apache Livy,设置使用 Kerberos 的 Amazon EMR 集群。或者,你可以在 a w GitHub s-samples/sagemaker-studio-emr 存储库中查看使用 Kerberos 或 LDAP 的 CloudFormation 示例模板。

手动输入连接到 Amazon EMR 集群的命令中,根据身份验证方法查找可用于连接到 Amazon EMR 集群的命令列表,以连接到您的 Amazon EMR 集群。

支持从 Studio Classic 连接到 Amazon EMR 集群 SageMaker 的镜像和内核

SageMaker Studio Classic 在以下映像和内核中为连接亚马逊 EMR 集群提供了内置支持:

  • DataScience — Python 3 内核

  • DataScience 2.0 — Python 3 内核

  • DataScience 3.0 — Python 3 内核

  • SparkAnalytics 1.0 — SparkMagic 还有内 PySpark 核

  • SparkAnalytics 2.0 — SparkMagic 还有内 PySpark 核

  • SparkMagic — SparkMagic 和内 PySpark 核

  • PyTorch 1.8 — Python 3 内核

  • TensorFlow 2.6 — Python 3 内核

  • TensorFlow 2.11 — Python 3 内核

这些映像和内核附带 sagemaker-studio-analytics-extensions,这是一款笔记本扩展,允许使用 Apache Livy 通过库连接到远程 Spark(Amazon EMR)集群。SparkMagic

要使用其他内置映像或您自己的映像连接到 Amazon EMR 集群,请按照自带映像中的说明进行操作。

自带映像

要在 SageMaker Studio Classic 中使用自己的镜像并允许您的笔记本电脑连接到 Amazon EMR 集群,请在内核中安装以下 sagemaker-studio-analytics-extension-extension- Extension 它支持通过库将 SageMaker Studio Classic 笔记本电脑连接到 Spark(亚马逊 EMR)集群。SparkMagic

pip install sparkmagic pip install sagemaker-studio-sparkmagic-lib pip install sagemaker-studio-analytics-extension

此外,要在连接 Amazon EMR 时使用 Kerberos 身份验证,您必须安装 kinit 客户端。根据您的操作系统,安装 kinit 客户端的命令可能会有所不同。要自带 Ubuntu(基于 Debian)映像,请使用 apt-get install -y -qq krb5-user 命令。

有关在 SageMaker Studio Classic 中自带图像的更多信息,请参阅自带 SageMaker 图片