使用 Amazon EMR 准备数据
Amazon SageMaker Studio 内置了与 Amazon EMR 的集成,数据科学家和数据工程师可以直接在他们的 Studio 笔记本上,执行 PB 级的交互式数据准备和机器学习 (ML) 任务。在笔记本中,他们可以发现并连接到现有的 Amazon EMR 集群,然后使用 Apache Spark
管理员可以使用 Amazon Service Catalog 来定义 Studio 用户可以访问的 Amazon EMR 集群的 Amazon CloudFormation 模板。然后,数据科学家可以选择预定义的模板,直接从 Amazon SageMaker Studio 笔记本自行预置 Amazon EMR 集群。管理员可以进一步参数化模板,让用户在预定义值的范围内对集群进行各种选择,以匹配其工作负载。例如,数据科学家或数据工程师可能希望指定不超过预定最大值的集群核心节点数量,或者从下拉菜单中选择节点的实例类型。
-
如果您是管理员,请确保已启用 Amazon SageMaker Studio 笔记本与 Amazon EMR 集群之间的通信。有关说明,请参阅配置联网(面向管理员)部分。启用此通信后,您可以选择:
-
在 Amazon Service Catalog 中定义集群模板,并通过 Studio 的笔记本确保这些模板的可用性:在 Amazon Service Catalog 中配置 Amazon EMR 模板(面向管理员)。
-
直接从 Studio 笔记本配置现有 Amazon EMR 集群的可发现性:配置 Amazon EMR 集群的可发现性(面向管理员)。
-
-
如果您是数据科学家或数据工程师,想要自行预置 Amazon EMR 集群,请参阅从 Studio 启动 Amazon EMR 集群。
-
如果您是数据科学家或数据工程师,希望从 Studio 发现并连接到现有 Amazon EMR 集群,请参阅从 Studio 笔记本使用 Amazon EMR 集群。