

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# 使用 Amazon EMR 准备数据
<a name="studio-notebooks-emr-cluster"></a>

**重要**  
Amazon SageMaker Studio 和 Amazon SageMaker Studio Classic 是你可以用来与 SageMaker AI 交互的两个机器学习环境。  
如果您的域是在 2023 年 11 月 30 日之后创建的，Studio 就是您的默认体验。  
如果您的域名是在 2023 年 11 月 30 日之前创建的，那么亚马逊 SageMaker Studio 经典版是您的默认体验。如果您的默认体验是亚马逊 SageMaker Studio 经典版，则要使用 Studio，请参阅[从亚马逊 SageMaker Studio 经典版迁移](studio-updated-migrate.md)。  
当您从 Amazon SageMaker Studio Classic 迁移到 Amazon SageMaker Studio 时，功能可用性不会受到任何损失。Studio Classic 还作为应用程序存在于 Amazon SageMaker Studio 中，可帮助您运行传统的机器学习工作流程。

Amazon SageMaker Studio 和 Studio Classic 内置了与[亚马逊 EMR](https://docs.amazonaws.cn/emr/latest/ManagementGuide/emr-what-is-emr.html) 的集成。[https://www.amazonaws.cn/emr/features/hive](https://www.amazonaws.cn/emr/features/hive)只需点击一下，他们就可以访问 Spark UI，监控 Spark 作业的状态和指标，而无需离开笔记本。

管理员可以创建 [Amazon CloudFormation 模板](https://docs.amazonaws.cn/AWSCloudFormation/latest/UserGuide/Welcome.html)来定义 Amazon EMR 集群。然后，他们就可以在 [Amazon Service Catalog](https://docs.amazonaws.cn/servicecatalog/latest/userguide/end-user-console.html) 中提供这些集群模板，供 Studio 和 Studio Classic 用户启动。然后，数据科学家可以选择一个预定义模板，直接从他们的 Studio 环境中自行配置 Amazon EMR 集群。管理员可以进一步对模板进行参数化，让用户在预定义值范围内选择集群的各个方面。例如，用户可能希望指定核心节点的数量，或从下拉菜单中选择节点的实例类型。

管理员可以使用来 Amazon CloudFormation控制 Amazon EMR 集群的组织、安全和联网设置。然后，数据科学家和数据工程师可以根据自己的工作负载定制这些模板，直接从 Studio 和 Studio Classic 创建按需 Amazon EMR 集群，而无需设置复杂的配置。用户可以在使用后终止 Amazon EMR 集群。
+ **如果您是管理员**：

  确保已启用 Studio 或 Studio Classic 与 Amazon EMR 集群之间的通信。有关说明，请参阅[为 Amazon EMR 集群配置网络访问权限](studio-notebooks-emr-networking.md)部分。启用此通信后，您可以：
  + [在 Service Catalog 中配置亚马逊 EMR CloudFormation 模板](studio-notebooks-set-up-emr-templates.md)
  + [配置 Amazon EMR 集群列表](studio-notebooks-configure-discoverability-emr-cluster.md)
+ **如果您是数据科学家或数据工程师**，您就可以：
  + [从 Studio 或 Studio Classic 启动 Amazon EMR 集群](studio-notebooks-launch-emr-cluster-from-template.md)
  + [从 Studio 或 Studio Classic 列出 Amazon EMR 集群](discover-emr-clusters.md)
  + [从 Studi SageMaker o 或 Studio Classic 连接到 Amazon EMR 集群](connect-emr-clusters.md)
  + [从 Studio 或 Studio Classic 终止 Amazon EMR 集群](terminate-emr-clusters.md)
  + [从 Studio 或 Studio Classic 访问 Spark UI](studio-notebooks-access-spark-ui.md)

**Topics**
+ [快速入门：创建 A SageMaker I 沙盒域以在 Studio 中启动 Amazon EMR 集群](studio-notebooks-emr-cluster-quickstart.md)
+ [管理员指南](studio-emr-admin-guide.md)
+ [用户指南](studio-emr-user-guide.md)
+ [博客和白皮书](studio-notebooks-emr-resources.md)
+ [问题排查](studio-notebooks-emr-troubleshooting.md)