使用 Amazon 准备数据 EMR - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

使用 Amazon 准备数据 EMR

重要

Amazon SageMaker Studio 和 Amazon SageMaker Studio Classic 是你可以用来与之交互的两个机器学习环境 SageMaker。

如果你的域名是在 2023 年 11 月 30 日之后创建的,那么 Studio 将是你的默认体验。

如果您的域名是在 2023 年 11 月 30 日之前创建的,那么亚马逊 SageMaker Studio 经典版是您的默认体验。如果您的默认体验是亚马逊 SageMaker Studio 经典版,则要使用 Studio,请参阅从亚马逊 SageMaker Studio 经典版迁移

当您从 Amazon SageMaker Studio Classic 迁移到 Amazon SageMaker Studio 时,功能可用性不会受到任何损失。Studio Classic 还作为应用程序存在于 Amazon SageMaker Studio 中,可帮助您运行传统的机器学习工作流程。

Amazon SageMaker Studio 和 Studio Classic 内置了与亚马逊的集成EMR。在 JupyterLab Studio Classic 笔记本电脑中,数据科学家和数据工程师可以发现并连接到现有的 Amazon EMR 集群,然后使用 A pache Spark、ApacheHiv e 或 Presto 以交互方式探索、可视化和准备用于机器学习的大规模数据。只需单击一下,他们就可以访问 Spark 用户界面,无需离开笔记本即可监控 Spark 作业的状态和指标。

管理员可以创建定义 Amazon EMR 集群的Amazon CloudFormation 模板。然后,他们可以在中提供这些集群模板Amazon Service Catalog以供 Studio 和 Studio Classic 用户启动。然后,数据科学家可以选择预定义的模板,直接从他们的 Studio 环境中自行配置 Amazon EMR 集群。管理员可以进一步参数化模板,让用户在预定义值范围内选择集群的各个方面。例如,用户可能想要指定核心节点的数量或从下拉菜单中选择节点的实例类型。

管理员可以使用 Amazon CloudFormation,控制 Amazon EMR 集群的组织、安全和联网设置。然后,数据科学家和数据工程师可以为其工作负载自定义这些模板,直接从 Studio 和 Studio Classic 创建按需的 Amazon EMR 集群,而无需设置复杂的配置。用户可以在使用后终止 Amazon EMR 集群。