本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
使用 Studio Classic 笔记本电脑中的 Amazon EMR 集群
在本节中,您将学习如何从 SageMaker Studio Classic 笔记本电脑中发现、连接或终止 Amazon EMR 集群。
-
如果您是管理员,请参阅配置 Amazon EMR 集群的可发现性(面向管理员)配置 SageMaker 从 Studio Classic 笔记本电脑中发现 Amazon EMR 集群的可发现性。
-
如果您是一名数据科学家或数据工程师,希望从您的 Studio Classic 笔记本电脑中发现 Amazon EMR 集群,请参阅。探索 Studio Classic 中的 SageMaker亚马逊 EMR 集群
-
如果您是一名数据科学家或数据工程师,希望通过 Studio Classic 笔记本电脑连接到现有 Amazon EMR 集群,请参阅。从 SageMaker Studio Classic 连接到亚马逊 EMR 集群
从 SageMaker Studio Classic 连接到 Amazon EMR 集群时,您可以使用 Kerberos、轻型目录访问协议 (LDAP) 或使用运行时 IAM 角色身份验证来对集群进行身份验证。您的身份验证方法取决于您的集群配置。您可以参考示例在启用了 Kerberos 的 Amazon EMR 集群上使用网络负载均衡器访问 Apache Livy
在手动输入连接到 Amazon EMR 集群的命令中,根据身份验证方法查找可用于连接到 Amazon EMR 集群的命令列表,以连接到您的 Amazon EMR 集群。
支持从 Studio Classic 连接到 Amazon EMR 集群 SageMaker 的镜像和内核
SageMaker Studio Classic 在以下映像和内核中为连接亚马逊 EMR 集群提供了内置支持:
-
DataScience — Python 3 内核
-
DataScience 2.0 — Python 3 内核
-
DataScience 3.0 — Python 3 内核
-
SparkAnalytics 1.0 — SparkMagic 还有内 PySpark 核
-
SparkAnalytics 2.0 — SparkMagic 还有内 PySpark 核
-
SparkMagic — SparkMagic 和内 PySpark 核
-
PyTorch 1.8 — Python 3 内核
-
TensorFlow 2.6 — Python 3 内核
-
TensorFlow 2.11 — Python 3 内核
这些映像和内核附带 sagemaker-studio-analytics-extensions,这是一款笔记本扩展,允许使用 Apache Livy 通过库
要使用其他内置映像或您自己的映像连接到 Amazon EMR 集群,请按照自带映像中的说明进行操作。
自带映像
要在 SageMaker Studio Classic 中使用自己的镜像并允许您的笔记本电脑连接到 Amazon EMR 集群,请在内核中安装以下 sagemaker-studio-analytics-extension-extension-
pip install sparkmagic pip install sagemaker-studio-sparkmagic-lib pip install sagemaker-studio-analytics-extension
此外,要在连接 Amazon EMR 时使用 Kerberos 身份验证,您必须安装 kinit 客户端。根据您的操作系统,安装 kinit 客户端的命令可能会有所不同。要自带 Ubuntu(基于 Debian)映像,请使用 apt-get install -y -qq krb5-user
命令。
有关在 SageMaker Studio Classic 中自带图像的更多信息,请参阅自带 SageMaker 图片。