使用工作室笔记本电脑大规模准备数据 - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 Amazon Web Services 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

使用工作室笔记本电脑大规模准备数据

Amazon SageMaker Studio 使数据科学家、机器学习工程师和全科医生能够轻松直观地发现并从 Studio 中轻松连接到 Amazon EMR 集群。从 Studio 连接到 Amazon EMR 集群后,您可以通过交互方式浏览和查询数据,并使用 Apache Spark 预处理和准备大量数据,以便在 SageMaker Studio 笔记本电脑中进行分析和建模培训。

SageMaker Studio 支持的分析功能可以从笔记本实例内连接到 Amazon EMR 集群,从而为分析和机器学习 (ML) 提供统一的笔记本体验。您可以使用 Amazon EMR 交互式探索和查询数据,可以通过 Spark 工作负载或 SageMaker 处理作业运行数据处理和功能工程作业,可以训练和调试 ML 模型并部署这些模型,所有这些都是从一个 Studio 笔记本实例进行的。Studio 还支持与同事共享笔记本电脑的工具,以便通过 UI 进行协作。借助此功能,您现在可以直接从 Studio 笔记本中构建端到端的 ML 工作流。能够从 SageMaker Studio 中连接到 Amazon EMR 集群,减少了创建 ML 工作流程所需的工具数量和设置时间,并最大限度地提高了团队之间的效率。

您可以在 SageMaker 工作室内直观浏览您账户中的亚马逊 EMR 集群列表。您只需单击即可从 Studio UI 中连接到远程群集。然后,Studio 将自动将命令注入到您的笔记本中,以便使用 Kerberos、HTTP 或非身份验证方法启动与远程群集的连接。

用于连接到 Amazon EMR 集群的支持映像和内核如下所示:

  • 映像:数据科学、SparkMagic

  • 内核:正在运行的应用程序下的闪光魔术图像的 PySpark 和火花内核,以及用于数据科学映像的 Python 3(IPython)。

Sparkmagic 的显示名称已从火花魔法 1.0 更改为火花制造商-火花魔法。当前的应用程序名称是 sagemaker-sparkmagic,后续版本可能有一个后缀,如-v2。

有关如何从 Studio 连接到 Amazon EMR 集群的完整演练,请参阅此博客从 SageMaker Studio 笔记本电脑执行交互式数据工程和数据科学工作流.