本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
在 Studio 中使用亚马逊EMR无服务器应用程序或 Amazon EMR 集群进行大规模数据准备
Amazon SageMaker Studio 及其旧版本 Studio Classic 为数据科学家和机器学习 (ML) 工程师提供了大规模执行数据分析和数据准备的工具。分析、转换和准备大量数据是任何数据科学和 ML 工作流的基础步骤。Studio 和 Studio Classic 都内置了与亚马逊的集成EMR,允许用户在 JupyterLab 笔记本电脑中管理大规模的交互式数据准备和机器学习工作流程。
亚马逊EMR是一个托管的大数据平台,其资源可帮助您使用 Ap ache Spark、Apache
如果您有大规模、长期运行或复杂的数据处理需求,涉及大量数据,需要大量自定义并与其他服务EMR集成,需要运行自定义应用程序,或者计划运行除了 Apache Spark 之外的各种分布式数据处理框架,则应考虑将 Amazon 集群用于数据准备工作负载。
使用SageMaker 分发映像1.10
或更高版本,您也可以直接从 SageMaker Studio 中的 JupyterLab 笔记本电脑连接到交互式EMR无服务器应用程序。Studio 与 EMR Serverless 的集成使您无需配置、管理或扩展亚马逊集群即可运行 Apache Spark
如果您的工作负载是短暂或间歇性的,并且不需要永久性集群;您更喜欢自动资源配置和终止的无服务器体验,从而避免管理基础架构的开销;或者您的交互式数据准备任务主要围绕 Apache Spark 展开,则应考虑EMR使用 Serverless 来处理交互式数据准备工作负载。