使用 Amazon EMR 准备数据 - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

使用 Amazon EMR 准备数据

Amazon SageMaker Studio 内置了与 Amazon EMR 的集成,数据科学家和数据工程师可以直接在他们的 Studio 笔记本上,执行 PB 级的交互式数据准备和机器学习 (ML) 任务。在笔记本中,他们可以发现并连接到现有的 Amazon EMR 集群,然后使用 Apache SparkApache HivePresto 以交互方式探索、可视化和准备大量的数据用于机器学习。此外,用户只需一次单击即可访问 Spark UI ,从他们的 Studio 笔记本上监控自己的 Spark 作业。

管理员可以使用 Amazon Service Catalog 来定义 Studio 用户可以访问的 Amazon EMR 集群的 Amazon CloudFormation 模板。然后,数据科学家可以选择预定义的模板,直接从 Amazon SageMaker Studio 笔记本自行预置 Amazon EMR 集群。管理员可以进一步参数化模板,让用户在预定义值的范围内对集群进行各种选择,以匹配其工作负载。例如,数据科学家或数据工程师可能希望指定不超过预定最大值的集群核心节点数量,或者从下拉菜单中选择节点的实例类型。