使用 Studio Classic 使用 Amazon EMR 大规模准备数据或 Amazon Glue - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

使用 Studio Classic 使用 Amazon EMR 大规模准备数据或 Amazon Glue

Amazon SageMaker Studio Classic 为数据科学家、机器学习 (ML) 工程师和全科医生提供了大规模执行数据分析和数据准备的工具。分析、转换和准备大量数据是任何数据科学和机器学习工作流程的基础步骤。 SageMaker Studio Classic 内置了 Amazon EMR 和 Amazon Glue 交互式会话的集成,可在 Studio Classic 笔记本中处理大规模的交互式数据准备和机器学习工作流程。

Amazon EMR 是一个托管的大数据平台,其资源有助于您使用 Apache SparkApache HivePresto、HBase、Flink 和 Hudi 等 Amazon 开源分析框架运行 PB 级分布式数据处理作业。数据工程师和数据科学家将 Amazon EMR 用于各种使用案例,包括大数据分析、假设分析、实时分析和机器学习的数据准备。通过将 Studio Classic 与亚马逊 EMR 集成,您无需离开 Studio Classic 笔记本即可创建、浏览、发现和连接亚马逊 EMR 集群。您还可以在笔记本中通过一键访问 Spark UI 来监控和调试 Spark 工作负载。如果您希望最大限度地控制硬件和软件版本、容器以及大数据处理应用程序,则应考虑使用 Amazon EMR 来处理数据准备工作负载。

Amazon Glue Interac tive Sessions 是一项无服务器服务,你可以使用它来收集、转换、清理和准备数据以存储在数据湖和数据管道中。 Amazon Glue Interactive Sessions 提供了按需提供的无服务器 Apache Spark 运行时环境,您可以在几秒钟内在专用的数据处理单元 (DPU) 上对其进行初始化,而不必担心配置和管理复杂的计算集群基础架构。初始化后,您可以直接在 Studio Classic 笔记本中快速浏览 Amazon Glue 数据目录 Amazon Lake Formation、运行大型查询、访问受控制的数据,以及使用 Spark 以交互方式分析和准备数据。然后,您可以使用 SageMaker Studio Classic 中专门构建的机器学习工具,使用准备好的数据来训练、调整和部署模型。如果您想要对可配置性和灵活性进行适度控制的无服务器 Spark 服务,则应考虑使用 Amazon Glue 交互式会话来处理数据准备工作负载。