在 Studio 中使用亚马逊EMR无服务器应用程序或 Amazon EMR 集群进行大规模数据准备 - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

在 Studio 中使用亚马逊EMR无服务器应用程序或 Amazon EMR 集群进行大规模数据准备

Amazon SageMaker Studio 及其旧版本 Studio Classic 为数据科学家和机器学习 (ML) 工程师提供了大规模执行数据分析和数据准备的工具。分析、转换和准备大量数据是任何数据科学和 ML 工作流的基础步骤。Studio 和 Studio Classic 都内置了与亚马逊的集成EMR,允许用户在 JupyterLab 笔记本电脑中管理大规模的交互式数据准备和机器学习工作流程。

亚马逊EMR是一个托管的大数据平台,其资源可帮助您使用 Ap ache Spark、Apache Hiv e、P rest o 和 Flink Amazon 等开源分析框架运行 PB 级分布式数据处理作业。HBase通过将 Studio 和 Studio Classic 与亚马逊集成EMR,您无需离开 JupyterLab 或 Studio Classic 笔记本电脑即可创建、浏览、发现和连接亚马逊EMR集群。此外,您还可以通过一键直接从笔记本电脑访问 Spark 用户界面来监控和调试 Spark 工作负载。

如果您有大规模、长期运行或复杂的数据处理需求,涉及大量数据,需要大量自定义并与其他服务EMR集成,需要运行自定义应用程序,或者计划运行除了 Apache Spark 之外的各种分布式数据处理框架,则应考虑将 Amazon 集群用于数据准备工作负载。

使用SageMaker 分发映像1.10或更高版本,您也可以直接从 SageMaker Studio 中的 JupyterLab 笔记本电脑连接到交互式EMR无服务器应用程序。Studio 与 EMR Serverless 的集成使您无需配置、管理或扩展亚马逊集群即可运行 Apache SparkApache Hiv e 等开源大数据分析框架。EMREMRServerless 会根据您的EMR无服务器应用程序的需求自动配置和管理底层计算和内存资源。它可以动态地向上和向下扩展资源,向您收取或按应用程序消耗的 v CPU、内存和存储资源量收费。这种无服务器方法允许您在 JupyterLab 笔记本电脑上运行交互式数据准备工作负载,而不必担心集群管理,同时实现高实例利用率和成本效益。

如果您的工作负载是短暂或间歇性的,并且不需要永久性集群;您更喜欢自动资源配置和终止的无服务器体验,从而避免管理基础架构的开销;或者您的交互式数据准备任务主要围绕 Apache Spark 展开,则应考虑EMR使用 Serverless 来处理交互式数据准备工作负载。