本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
使用 Studio Classic 使用 Amazon EMR 大规模准备数据或 Amazon Glue
Amazon SageMaker Studio Classic 为数据科学家、机器学习 (ML) 工程师和全科医生提供了大规模执行数据分析和数据准备的工具。分析、转换和准备大量数据是任何数据科学和机器学习工作流程的基础步骤。 SageMaker Studio Classic 内置了 Amazon EMR 和 Amazon Glue 交互式会话的集成,可在 Studio Classic 笔记本中处理大规模的交互式数据准备和机器学习工作流程。
Amazon EMR 是一个托管的大数据平台,其资源有助于您使用 Apache Spark
Amazon Glue Interac tive Sessions 是一项无服务器服务,你可以使用它来收集、转换、清理和准备数据以存储在数据湖和数据管道中。 Amazon Glue Interactive Sessions 提供了按需提供的无服务器 Apache Spark 运行时环境,您可以在几秒钟内在专用的数据处理单元 (DPU) 上对其进行初始化,而不必担心配置和管理复杂的计算集群基础架构。初始化后,您可以直接在 Studio Classic 笔记本中快速浏览 Amazon Glue 数据目录 Amazon Lake Formation、运行大型查询、访问受控制的数据,以及使用 Spark 以交互方式分析和准备数据。然后,您可以使用 SageMaker Studio Classic 中专门构建的机器学习工具,使用准备好的数据来训练、调整和部署模型。如果您想要对可配置性和灵活性进行适度控制的无服务器 Spark 服务,则应考虑使用 Amazon Glue 交互式会话来处理数据准备工作负载。