使用 Amazon Glue 交互式会话准备数据 - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

使用 Amazon Glue 交互式会话准备数据

Amazon Glue 交互式会话是一个按需的、无服务器的 Apache Spark 运行时系统环境,数据科学家和工程师可以使用它来快速构建、测试和运行数据准备和分析应用程序。

您可以通过启动 SageMaker Studio Classic 笔记本来启动 Amazon Glue 交互式会话。创建 Studio Classic 笔记本时,请选择内置Glue PySparkGlue Spark内核。这将自动启动交互式的无服务器 Spark 会话。您无需预置或管理任何计算集群或基础设施。初始化后,您可以在 Studio Classic 笔记本中使用 Spark 探索、执行复杂查询以及交互式分析和准备数据。 Amazon Glue Data Catalog然后,您可以使用 SageMaker Studio Classic 中专门构建的机器学习工具,使用准备好的数据来构建、训练、调整和部署模型。

在 SageMaker Studio Classic 中开始 Amazon Glue 交互式会话之前,您需要设置相应的角色和策略。此外,您可能需要提供对其他资源的访问权限,例如用于存储的 Amazon S3 存储桶,这可能需要额外的策略。有关必需和额外的 IAM 策略更多信息,请参阅 SageMakerStudio 经典版中 Amazon Glue 交互式会话的权限

SageMaker Studio Classic 为您的 Amazon Glue 交互式会话提供了默认配置,但是,您可以使用完整 Amazon Glue的 Jupyter 魔法命令目录来进一步自定义您的环境。有关可在 Amazon Glue 交互式会话中使用的默认和其他 Jupyter 魔法的信息,请参阅。在 SageMaker Studio 经典版中配置 Amazon Glue 交互式会话

支持连接到 Amazon Glue 交互式会话的镜像和内核如下:

  • 图片: SparkAnalytics 1.0、 SparkAnalytics 2.0

  • 内核:Glue Python [PySpark 和 Ray] 和 Glue Spark

先决条件:

您选择在 Studio Classic 中启动 Amazon Glue 会话的 SparkAnalytics 映像是两个框架的组合: SparkMagic 框架(与 Amazon EMR 一起使用)和。 Amazon Glue因此,这两个框架的先决条件都适用。但是,如果您只计划使用 Amazon Glue 交互式会话,则无需设置 Amazon EMR 集群。在 Studio Classic 中开始您的第一个 Amazon Glue 互动会话之前,请完成以下操作:

  • 完成使用 SparkMagic 镜像所需的先决条件。有关先决条件列表,请参阅使用 Studio Classic Notebook 大规模准备数据中的先决条件部分。

  • 创建同时拥有两者权限 Amazon Glue 和 SageMaker Studio Classic 权限的执行角色。添加托管策略 AwsGlueSessionUserRestrictedServiceRole,并创建包含权限 sts:GetCallerIdentityiam:GetRoleIAM:Passrole 的自定义策略。有关如何创建必要权限的说明,请参阅 SageMakerStudio 经典版中 Amazon Glue 交互式会话的权限

  • 使用您创建的执行角色创建 SageMaker 域。有关如何创建域的说明,请参阅正在设置 SageMaker