使用 Studio 笔记本大规模准备数据 - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 Amazon Web Services 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

使用 Studio 笔记本大规模准备数据

Studio 为数据科学家、机器学习 (ML) 工程师和全科医生提供了大规模执行数据分析和数据准备的工具。在 Studio 笔记本中,您可以直观地浏览、发现和连接到Amazon EMR. 连接后,您可以使用 Apache Spark、Hive 和 Presto 以交互方式探索、可视化和准备 PB 级数据以供机器学习 (ML) 使用。

分析、转换和准备大量数据是任何数据科学和机器学习工作流程的基本步骤。在 Amazon EMR 和 SageMaker Studio 笔记本上运行交互式分析和数据准备可以作为完整的数据科学和数据工程工作流程的统一环境。

Studio 还支持与同事共享笔记本电脑的工具,以便通过 UI 进行协作。借助此功能,您现在可以直接从 Studio 笔记本构建机器学习工作流程。使用 SageMaker Studio 连接到 Amazon EMR 集群还可以通过简化机器学习工作流程的设置来帮助提高团队效率。

用于连接到 Amazon EMR 集群的支持映像和内核如下所示:

  • 映像:数据科学、Spark Magic、PyTorch Clow 1.8、TensorFlow 2.8

  • 内核:PySpark 和 Spark 内核用于正在运行的应用程序下的 SparkMagic 映像,Python 3(iPython)用于数据科学映像。

有关如何从 Studio 连接到 Amazon EMR 集群的指导说明,请参阅。使用 SageMaker Studio 笔记本电脑执行交互式数据工程和数据科学.

有关所需权限的详细信息,请参阅。所需权限.

先决条件

  • 您需要访问设置为使用 Amazon Virtual Private Cloud (Amazon VPC) 模式的 SageMaker Studio。

  • SageMaker Studio 使用的所有子网必须是私有子网。

  • 如果您将sm-analytics实用程序来配置 SparkMagic 内核,请遵循以下两个先决条件之一:

    • 确保 Amazon VPC 接口终端节点已连接到 SageMaker Studio 使用的所有子网。

    • 确保 SageMaker Studio 使用的所有子网都路由为使用 NAT 网关。有关更多信息,请参阅 。NAT 网关.

  • 如果以下任一点适用于您,则在使用亚马逊 EMR 时必须安装 Spark 和 Livy。

    • 您的亚马逊 EMR 集群与 Studio 位于同一亚马逊 VPC 中。

    • 您的集群位于连接到 Studio 中的 Amazon VPC 中的亚马逊 VPC 中。

  • Amazon SageMaker Studio 和亚马逊 EMR 的安全组必须允许相互访问和相互访问。

  • 您的亚马逊 EMR 安全组必须打开端口 8998,以便 Amazon SageMaker Studio 可以通过 Livy 与 Spark 集群进行通信。有关设置安全组的更多信息,请参阅。在亚马逊 EMR 中构建 Spark 支持的 SageMaker 笔记本.

  • 要从 Studio 连接到亚马逊 EMR 群集,您必须首先访问 SageMaker Studio。如果您尚未设置 SageMaker Studio,请按照入门指南.

  • 如果您在 Studio 设置期间创建了新域,那么从 Studio 发现 Amazon EMR 群集应该可供您使用。

自带图片

如果你想自带映像,请先将以下依赖项安装到你的内核中。以下列表显示:pip带有要安装的库名称的命令。

pip install sparkmagic pip install sagemaker-studio-sparkmagic-lib pip install sagemaker-studio-analytics-extension

如果不是最新版本,则可以手动更新之前列表中的库。

如果要使用 Kerberos 身份验证连接到 Amazon EMR,则必须安装 kinit 客户端。根据您的操作系统,安装 kinit 客户端的命令可能会有所不同。要携带 Ubuntu(基于 Debian)的映像,请使用apt-get install -y -qq krb5-user命令。